Klustring av NVIDIA DGX Spark + M3 Ultra Mac Studio för 4x snabbare LLM-inferens.
DGX Spark: 128 GB @ 273 GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), $5,599
DGX Spark har 3 gånger mindre minnesbandbredd än M3 Ultra men 4 gånger mer FLOPS.
Genom att köra beräkningsbunden förifyllning på DGX Spark, minnesbunden avkodning på M3 Ultra och strömning av KV-cache över 10 GbE kan vi få det bästa av båda maskinvarorna med massiva hastighetsökningar.
Kort förklaring i denna tråd och länk till hela blogginlägget nedan.
Klustring av NVIDIA DGX Spark + M3 Ultra Mac Studio för 4x snabbare LLM-inferens.
DGX Spark: 128 GB @ 273 GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), $5,599
DGX Spark har 3 gånger mindre minnesbandbredd än M3 Ultra men 4 gånger mer FLOPS.
Genom att köra beräkningsbunden förifyllning på DGX Spark och minnesbunden avkodning på M3 Ultra, och strömma KV-cachen över 10 GbE, kan vi få det bästa av båda maskinvarorna med massiva hastighetsökningar.
Kort förklaring i denna tråd och länk till hela blogginlägget nedan.
Kombinera NVIDIA DGX Spark + Apple M3 Ultra Mac Studio för 4x snabbare LLM-inferens med EXO.
DGX Spark: 128 GB @ 273 GB/s, 100TFLOPS (fp16)
M3 Ultra Mac Studio: 512 GB @ 819 GB/s, 26 TFLOPS (fp16)
DGX Spark har ~4x FLOPS av M3 Ultra men 3x mindre minnesbandbredd.
Vi kunde få en 4x prestandaökning genom att kombinera enheterna och noggrant överlappande beräkning och nätverkskommunikation (över 10 GbE). Hur?
LLM-inferens består av två steg: förifyllning och avkodning.
Förifyllningen är beräkningsbunden och blir snabbare med fler FLOPS.
Avkodning är minnesbundet och blir snabbare med mer minnesbandbredd.
Genom att köra beräkningsbunden förifyllning på DGX Spark och minnesbunden avkodning på M3 Ultra kunde vi uppnå 4x snabbare hastighet på förfyllningen jämfört med enbart M3 Ultra Mac Studio och 3x snabbare hastighet på generering jämfört med enbart DGX Spark.
Mer information i blogginlägget nedan.