一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

NVIDIA 發送了 2 台 DGX Spark。一段時間以來，我們一直在想我們該如何使用它們。記憶體帶寬為 273GB/s，這使得它在 batch_size=1 推理時比 M3 Ultra（819GB/s）慢 3 倍。但它的 FLOPS 是 M3 Ultra 的 4 倍（100 TFLOPS 對比 26 TFLOPS）。所以我們想，如果我們能將 DGX Spark 和 M3 Ultra 結合起來，利用 DGX Spark 的強大計算能力和 M3 Ultra 的巨大記憶體帶寬，會怎樣呢？我們想出了一種方法，可以在兩個設備之間分配推理，並實現與單獨使用 M3 Ultra 相比，對於長提示的速度提升高達 4 倍。完整細節請參見下面的部落格文章。