一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

集群 NVIDIA DGX Spark + M3 Ultra Mac Studio，实现 4 倍更快的 LLM 推理。 DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599 DGX Spark 的内存带宽是 M3 Ultra 的 1/3，但 FLOPS 是其 4 倍。通过在 DGX Spark 上运行计算密集型的预填充任务，在 M3 Ultra 上运行内存密集型的解码任务，并通过 10GbE 流式传输 KV 缓存，我们能够充分利用这两种硬件，实现巨大的速度提升。此线程中的简短说明及完整博客文章链接如下。

LLM 推理由预填充阶段和解码阶段组成。预填充处理提示，构建 KV 缓存。它是计算密集型的 - 随着更多的 FLOPS 变得更快。解码读取 KV 缓存并逐个生成令牌。它是内存密集型的 - 随着更多的内存带宽变得更快。

509