Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Klastrowanie NVIDIA DGX Spark + M3 Ultra Mac Studio dla 4x szybszego wnioskowania LLM.
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), 3,999 $
M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), 5,599 $
DGX Spark ma 3x mniejszą przepustowość pamięci niż M3 Ultra, ale 4x więcej FLOPS.
Uruchamiając obliczeniowo ograniczone wypełnienie na DGX Spark i pamięcio- ograniczone dekodowanie na M3 Ultra, oraz przesyłając pamięć podręczną KV przez 10GbE, jesteśmy w stanie uzyskać najlepsze z obu sprzętów z ogromnymi przyspieszeniami.
Krótka wyjaśnienie w tym wątku i link do pełnego wpisu na blogu poniżej.

Wnioskowanie LLM składa się z etapu wypełniania i etapu dekodowania.
Etap wypełniania przetwarza zapytanie, budując pamięć podręczną KV. Jest ograniczony przez obliczenia - staje się szybszy przy większej liczbie FLOPS.
Etap dekodowania odczytuje pamięć podręczną KV i generuje tokeny jeden po drugim. Jest ograniczony przez pamięć - staje się szybszy przy większej przepustowości pamięci.
497
Najlepsze
Ranking
Ulubione

