NVIDIA 發送了 2 台 DGX Spark。 一段時間以來,我們一直在想我們該如何使用它們。 記憶體帶寬為 273GB/s,這使得它在 batch_size=1 推理時比 M3 Ultra(819GB/s)慢 3 倍。但它的 FLOPS 是 M3 Ultra 的 4 倍(100 TFLOPS 對比 26 TFLOPS)。 所以我們想,如果我們能將 DGX Spark 和 M3 Ultra 結合起來,利用 DGX Spark 的強大計算能力和 M3 Ultra 的巨大記憶體帶寬,會怎樣呢? 我們想出了一種方法,可以在兩個設備之間分配推理,並實現與單獨使用 M3 Ultra 相比,對於長提示的速度提升高達 4 倍。 完整細節請參見下面的部落格文章。