Klynger NVIDIA DGX Spark + M3 Ultra Mac Studio for 4 ganger raskere LLM-slutning.
DGX Spark: 128 GB @ 273 GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), $5,599
DGX Spark har 3 ganger mindre minnebåndbredde enn M3 Ultra, men 4 ganger flere FLOPS.
Ved å kjøre databundet forhåndsutfylling på DGX Spark, minnebundet dekoding på M3 Ultra og strømme KV-cachen over 10 GbE, er vi i stand til å få det beste ut av begge maskinvarene med enorme hastigheter.
Kort forklaring i denne tråden og lenke til hele blogginnlegget nedenfor.
Klynger NVIDIA DGX Spark + M3 Ultra Mac Studio for 4 ganger raskere LLM-slutning.
DGX Spark: 128 GB @ 273 GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), $5,599
DGX Spark har 3 ganger mindre minnebåndbredde enn M3 Ultra, men 4 ganger flere FLOPS.
Ved å kjøre databundet forhåndsutfylling på DGX Spark og minnebundet dekoding på M3 Ultra, og strømme KV-cachen over 10GbE, er vi i stand til å få det beste ut av begge maskinvarene med enorme hastigheter.
Kort forklaring i denne tråden og lenke til hele blogginnlegget nedenfor.
Kombinerer NVIDIA DGX Spark + Apple M3 Ultra Mac Studio for 4 ganger raskere LLM-slutning ved hjelp av EXO.
DGX-gnist: 128 GB @ 273 GB/s, 100TFLOPS (fp16)
M3 Ultra Mac Studio: 512 GB @ 819 GB/s, 26 TFLOPS (fp16)
DGX Spark har ~4x FLOPS av M3 Ultra, men 3x mindre minnebåndbredde.
Vi var i stand til å få en 4x ytelsesøkning ved å kombinere enhetene og nøye overlappende beregning og nettverkskommunikasjon (over 10GbE). Hvordan?
LLM-slutning består av to trinn: forhåndsutfylling og dekoding.
Forhåndsutfylling er databundet og blir raskere med flere flopper.
Decode er minnebundet og blir raskere med mer minnebåndbredde.
Ved å kjøre databundet forhåndsutfylling på DGX Spark og minnebundet dekoding på M3 Ultra, klarte vi å oppnå 4x raskere på forhåndsutfyllingen sammenlignet med M3 Ultra Mac Studio alene og 3x raskere på generasjon sammenlignet med DGX Spark alene.
Flere detaljer i blogginnlegget nedenfor.