NVIDIA DGX Spark + M3 Ultra Mac Studion klusterointi 4 kertaa nopeampaan LLM-päättelyyn. DGX Spark: 128 Gt @ 273 Gt/s, 100 TFLOPS (fp16), 3,999 dollaria M3 Ultra: 256 Gt @ 819 Gt/s, 26 TFLOPS (fp16), 5,599 dollaria DGX Sparkissa on 3 kertaa vähemmän muistin kaistanleveyttä kuin M3 Ultrassa, mutta 4 kertaa enemmän FLOPSeja. Suorittamalla laskentaan sidotun esitäytön DGX Sparkissa ja muistiin sidotun dekoodauksen M3 Ultrassa ja suoratoistamalla KV-välimuistia yli 10 GbE:n avulla pystymme saamaan molempien laitteistojen parhaat puolet valtavilla nopeuksilla. Lyhyt selitys tässä ketjussa ja linkki koko blogikirjoitukseen alla.
LLM-päättely koostuu esitäyttövaiheesta ja dekoodausvaiheesta. Esitäyttö käsittelee kehotteen ja rakentaa KV-välimuistin. Se on laskentaan sidottu - nopeutuu useammalla FLOPS:lla. Dekoodaus lukee KV-välimuistin ja luo tunnukset yksitellen. Se on muistiin sidottu - nopeutuu suuremmalla muistin kaistanleveydellä.
509