熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
NVIDIA 發送了 2 台 DGX Spark。
一段時間以來,我們一直在想我們該如何使用它們。
記憶體帶寬為 273GB/s,這使得它在 batch_size=1 推理時比 M3 Ultra(819GB/s)慢 3 倍。但它的 FLOPS 是 M3 Ultra 的 4 倍(100 TFLOPS 對比 26 TFLOPS)。
所以我們想,如果我們能將 DGX Spark 和 M3 Ultra 結合起來,利用 DGX Spark 的強大計算能力和 M3 Ultra 的巨大記憶體帶寬,會怎樣呢?
我們想出了一種方法,可以在兩個設備之間分配推理,並實現與單獨使用 M3 Ultra 相比,對於長提示的速度提升高達 4 倍。
完整細節請參見下面的部落格文章。
熱門
排行
收藏

