Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cụm NVIDIA DGX Spark + M3 Ultra Mac Studio để tăng tốc độ suy diễn LLM gấp 4 lần.
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599
DGX Spark có băng thông bộ nhớ thấp hơn 3 lần so với M3 Ultra nhưng có FLOPS cao hơn 4 lần.
Bằng cách chạy prefill giới hạn tính toán trên DGX Spark và giải mã giới hạn bộ nhớ trên M3 Ultra, và truyền phát bộ nhớ KV qua 10GbE, chúng tôi có thể tận dụng tối đa cả hai phần cứng với tốc độ tăng vọt khổng lồ.
Giải thích ngắn gọn trong chủ đề này & liên kết đến bài viết blog đầy đủ bên dưới.

Suy diễn LLM bao gồm một giai đoạn tiền lấp đầy và giai đoạn giải mã.
Giai đoạn tiền lấp đầy xử lý lời nhắc, xây dựng một bộ nhớ KV. Nó bị giới hạn bởi tính toán - nhanh hơn với nhiều FLOPS hơn.
Giai đoạn giải mã đọc bộ nhớ KV và tạo ra các token từng cái một. Nó bị giới hạn bởi bộ nhớ - nhanh hơn với băng thông bộ nhớ lớn hơn.
490
Hàng đầu
Thứ hạng
Yêu thích

