Cụm NVIDIA DGX Spark + M3 Ultra Mac Studio để tăng tốc độ suy diễn LLM gấp 4 lần. DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599 DGX Spark có băng thông bộ nhớ thấp hơn 3 lần so với M3 Ultra nhưng có FLOPS cao hơn 4 lần. Bằng cách chạy prefill giới hạn tính toán trên DGX Spark và giải mã giới hạn bộ nhớ trên M3 Ultra, và truyền phát bộ nhớ KV qua 10GbE, chúng tôi có thể tận dụng tối đa cả hai phần cứng với tốc độ tăng vọt khổng lồ. Giải thích ngắn gọn trong chủ đề này & liên kết đến bài viết blog đầy đủ bên dưới.
Suy diễn LLM bao gồm một giai đoạn tiền lấp đầy và giai đoạn giải mã. Giai đoạn tiền lấp đầy xử lý lời nhắc, xây dựng một bộ nhớ KV. Nó bị giới hạn bởi tính toán - nhanh hơn với nhiều FLOPS hơn. Giai đoạn giải mã đọc bộ nhớ KV và tạo ra các token từng cái một. Nó bị giới hạn bởi bộ nhớ - nhanh hơn với băng thông bộ nhớ lớn hơn.
490