Klastrowanie NVIDIA DGX Spark + M3 Ultra Mac Studio dla 4x szybszego wnioskowania LLM. DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), 3,999 $ M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), 5,599 $ DGX Spark ma 3x mniejszą przepustowość pamięci niż M3 Ultra, ale 4x więcej FLOPS. Uruchamiając obliczeniowo ograniczone wypełnienie na DGX Spark i pamięcio- ograniczone dekodowanie na M3 Ultra, oraz przesyłając pamięć podręczną KV przez 10GbE, jesteśmy w stanie uzyskać najlepsze z obu sprzętów z ogromnymi przyspieszeniami. Krótka wyjaśnienie w tym wątku i link do pełnego wpisu na blogu poniżej.
Wnioskowanie LLM składa się z etapu wypełniania i etapu dekodowania. Etap wypełniania przetwarza zapytanie, budując pamięć podręczną KV. Jest ograniczony przez obliczenia - staje się szybszy przy większej liczbie FLOPS. Etap dekodowania odczytuje pamięć podręczną KV i generuje tokeny jeden po drugim. Jest ograniczony przez pamięć - staje się szybszy przy większej przepustowości pamięci.
497