Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio voor 4x snellere LLM-inferentie.
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599
De DGX Spark heeft 3x minder geheugensnelheid dan de M3 Ultra, maar 4x meer FLOPS.
Door compute-bound prefill op de DGX Spark uit te voeren, memory-bound decode op de M3 Ultra, en de KV-cache via 10GbE te streamen, kunnen we het beste van beide hardware combineren met enorme versnellingen.
Korte uitleg in deze thread & link naar de volledige blogpost hieronder.
Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio voor 4x snellere LLM-inferentie.
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599
De DGX Spark heeft 3x minder geheugensnelheid dan de M3 Ultra, maar 4x meer FLOPS.
Door compute-bound prefill op de DGX Spark en memory-bound decode op de M3 Ultra uit te voeren, en de KV-cache via 10GbE te streamen, kunnen we het beste van beide hardware combineren met enorme versnellingen.
Korte uitleg in deze thread & link naar de volledige blogpost hieronder.
Het combineren van NVIDIA DGX Spark + Apple M3 Ultra Mac Studio voor 4x snellere LLM-inferentie met EXO.
DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16)
M3 Ultra Mac Studio: 512GB @ 819GB/s, 26 TFLOPS (fp16)
DGX Spark heeft ~4x FLOPS van de M3 Ultra, maar 3x minder geheugendoorvoer.
We konden een prestatieverbetering van 4x bereiken door de apparaten te combineren en zorgvuldig berekeningen en netwerkcommunicatie (over 10GbE) te overlappen. Hoe?
LLM-inferentie bestaat uit twee fasen: prefill en decode.
Prefill is compute-bound en wordt sneller met meer FLOPS.
Decode is memory-bound en wordt sneller met meer geheugendoorvoer.
Door de compute-bound prefill op de DGX Spark en de memory-bound decode op de M3 Ultra uit te voeren, konden we een versnelling van 4x op de prefill bereiken vergeleken met de M3 Ultra Mac Studio alleen en een versnelling van 3x op de generatie vergeleken met de DGX Spark alleen.
Meer details in de blogpost hieronder.