Klustring av NVIDIA DGX Spark + M3 Ultra Mac Studio för 4x snabbare LLM-inferens. DGX Spark: 128 GB @ 273 GB/s, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), $5,599 DGX Spark har 3 gånger mindre minnesbandbredd än M3 Ultra men 4 gånger mer FLOPS. Genom att köra beräkningsbunden förifyllning på DGX Spark och minnesbunden avkodning på M3 Ultra, och strömma KV-cachen över 10 GbE, kan vi få det bästa av båda maskinvarorna med massiva hastighetsökningar. Kort förklaring i denna tråd och länk till hela blogginlägget nedan.
LLM-inferens består av ett förifyllningssteg och ett avkodningssteg. Förifyllning bearbetar prompten och skapar en KV-cache. Det är beräkningsbundet - blir snabbare med fler FLOPS. Avkodning läser KV-cache och genererar tokens en efter en. Det är minnesbundet - blir snabbare med mer minnesbandbredd.
494