Klynger NVIDIA DGX Spark + M3 Ultra Mac Studio for 4 ganger raskere LLM-slutning. DGX Spark: 128 GB @ 273 GB/s, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), $5,599 DGX Spark har 3 ganger mindre minnebåndbredde enn M3 Ultra, men 4 ganger flere FLOPS. Ved å kjøre databundet forhåndsutfylling på DGX Spark og minnebundet dekoding på M3 Ultra, og strømme KV-cachen over 10GbE, er vi i stand til å få det beste ut av begge maskinvarene med enorme hastigheter. Kort forklaring i denne tråden og lenke til hele blogginnlegget nedenfor.
LLM-slutning består av en forhåndsutfyllingsfase og dekodingsfase. Forhåndsutfylling behandler ledeteksten, og bygger en KV-buffer. Den er databundet - blir raskere med flere FLOPS. Decode leser KV-cache og genererer tokens én etter én. Den er minnebundet - blir raskere med mer minnebåndbredde.
424