Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

EXO Labs
Cụm NVIDIA DGX Spark + M3 Ultra Mac Studio để tăng tốc độ suy diễn LLM gấp 4 lần.
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599
DGX Spark có băng thông bộ nhớ thấp hơn 3 lần so với M3 Ultra nhưng có FLOPS cao hơn 4 lần.
Bằng cách chạy prefill giới hạn tính toán trên DGX Spark, giải mã giới hạn bộ nhớ trên M3 Ultra, và truyền phát bộ nhớ KV qua 10GbE, chúng tôi có thể tận dụng tốt nhất cả hai phần cứng với tốc độ tăng vọt khổng lồ.
Giải thích ngắn gọn trong chủ đề này & liên kết đến bài viết blog đầy đủ bên dưới.

439,68K
Cụm NVIDIA DGX Spark + M3 Ultra Mac Studio để tăng tốc độ suy diễn LLM gấp 4 lần.
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599
DGX Spark có băng thông bộ nhớ thấp hơn 3 lần so với M3 Ultra nhưng có FLOPS cao hơn 4 lần.
Bằng cách chạy prefill giới hạn tính toán trên DGX Spark và giải mã giới hạn bộ nhớ trên M3 Ultra, và truyền phát bộ nhớ KV qua 10GbE, chúng tôi có thể tận dụng tối đa cả hai phần cứng với tốc độ tăng vọt khổng lồ.
Giải thích ngắn gọn trong chủ đề này & liên kết đến bài viết blog đầy đủ bên dưới.

518
Kết hợp NVIDIA DGX Spark + Apple M3 Ultra Mac Studio để tăng tốc độ suy diễn LLM gấp 4 lần bằng cách sử dụng EXO.
DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16)
M3 Ultra Mac Studio: 512GB @ 819GB/s, 26 TFLOPS (fp16)
DGX Spark có ~4x FLOPS so với M3 Ultra nhưng băng thông bộ nhớ thấp hơn 3x.
Chúng tôi đã có thể đạt được mức tăng hiệu suất gấp 4 lần bằng cách kết hợp các thiết bị và chồng chéo cẩn thận giữa tính toán và truyền thông mạng (trên 10GbE). Làm thế nào?
Suy diễn LLM bao gồm hai giai đoạn: prefill và decode.
Prefill là giai đoạn phụ thuộc vào tính toán và trở nên nhanh hơn với nhiều FLOPS hơn.
Decode là giai đoạn phụ thuộc vào bộ nhớ và trở nên nhanh hơn với nhiều băng thông bộ nhớ hơn.
Bằng cách chạy prefill phụ thuộc vào tính toán trên DGX Spark và decode phụ thuộc vào bộ nhớ trên M3 Ultra, chúng tôi đã có thể đạt được tốc độ gấp 4 lần trên prefill so với M3 Ultra Mac Studio một mình và tốc độ gấp 3 lần trên generation so với DGX Spark một mình.
Thêm chi tiết trong bài viết blog bên dưới.

827
Hàng đầu
Thứ hạng
Yêu thích

