Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi | Ví Web3 OKX

Tôi có thể làm gì với Khám phá

background background

discoveryBanners

Chủ đề thịnh hành

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN-3,58%

#

Boop.Fun leading the way with a new launchpad on Solana.

header

EXO Labs

EXO Labs

EXO Labs16 thg 10, 2025

Cụm NVIDIA DGX Spark + M3 Ultra Mac Studio để tăng tốc độ suy diễn LLM gấp 4 lần. DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599 DGX Spark có băng thông bộ nhớ thấp hơn 3 lần so với M3 Ultra nhưng có FLOPS cao hơn 4 lần. Bằng cách chạy prefill giới hạn tính toán trên DGX Spark, giải mã giới hạn bộ nhớ trên M3 Ultra, và truyền phát bộ nhớ KV qua 10GbE, chúng tôi có thể tận dụng tốt nhất cả hai phần cứng với tốc độ tăng vọt khổng lồ. Giải thích ngắn gọn trong chủ đề này & liên kết đến bài viết blog đầy đủ bên dưới.

439,68K

EXO Labs

EXO Labs16 thg 10, 2025

Cụm NVIDIA DGX Spark + M3 Ultra Mac Studio để tăng tốc độ suy diễn LLM gấp 4 lần. DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599 DGX Spark có băng thông bộ nhớ thấp hơn 3 lần so với M3 Ultra nhưng có FLOPS cao hơn 4 lần. Bằng cách chạy prefill giới hạn tính toán trên DGX Spark và giải mã giới hạn bộ nhớ trên M3 Ultra, và truyền phát bộ nhớ KV qua 10GbE, chúng tôi có thể tận dụng tối đa cả hai phần cứng với tốc độ tăng vọt khổng lồ. Giải thích ngắn gọn trong chủ đề này & liên kết đến bài viết blog đầy đủ bên dưới.

518

EXO Labs

EXO Labs15 thg 10, 2025

Kết hợp NVIDIA DGX Spark + Apple M3 Ultra Mac Studio để tăng tốc độ suy diễn LLM gấp 4 lần bằng cách sử dụng EXO. DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16) M3 Ultra Mac Studio: 512GB @ 819GB/s, 26 TFLOPS (fp16) DGX Spark có ~4x FLOPS so với M3 Ultra nhưng băng thông bộ nhớ thấp hơn 3x. Chúng tôi đã có thể đạt được mức tăng hiệu suất gấp 4 lần bằng cách kết hợp các thiết bị và chồng chéo cẩn thận giữa tính toán và truyền thông mạng (trên 10GbE). Làm thế nào? Suy diễn LLM bao gồm hai giai đoạn: prefill và decode. Prefill là giai đoạn phụ thuộc vào tính toán và trở nên nhanh hơn với nhiều FLOPS hơn. Decode là giai đoạn phụ thuộc vào bộ nhớ và trở nên nhanh hơn với nhiều băng thông bộ nhớ hơn. Bằng cách chạy prefill phụ thuộc vào tính toán trên DGX Spark và decode phụ thuộc vào bộ nhớ trên M3 Ultra, chúng tôi đã có thể đạt được tốc độ gấp 4 lần trên prefill so với M3 Ultra Mac Studio một mình và tốc độ gấp 3 lần trên generation so với DGX Spark một mình. Thêm chi tiết trong bài viết blog bên dưới.

827

Hàng đầu

Thứ hạng

Yêu thích

©2017 - 2025 WEB3.OKX.COM

Tiếng Việt 简体中文繁體中文 English Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

Tìm hiểu thêm về OKX Web3

Tải xuống Học viện Về OKX Cơ hội nghề nghiệp Liên hệ với chúng tôi Điều khoản dịch vụ Thông báo Bảo mật X (trước đây là Twitter)

Sản phẩm

Trang thông tin ví Hoán đổi Thị trường Earn Khám phá Xây dựng Trình khám phá Bảo mật

Hỗ trợ

Trung tâm hỗ trợ Xác minh chính thức Thông báo Biểu phí DEX Kết nối với OKX Ví Bitcoin Ví Ethereum Ví Solana