NVIDIA DGX Spark + M3 Ultra Mac Studion klusterointi 4 kertaa nopeampaan LLM-päättelyyn. DGX Spark: 128 Gt @ 273 Gt/s, 100 TFLOPS (fp16), 3,999 dollaria M3 Ultra: 256 Gt @ 819 Gt/s, 26 TFLOPS (fp16), 5,599 dollaria DGX Sparkissa on 3 kertaa vähemmän muistin kaistanleveyttä kuin M3 Ultrassa, mutta 4 kertaa enemmän FLOPSeja. Suorittamalla laskentaan sidotun esitäytön DGX Sparkissa, muistiin sidotun dekoodauksen M3 Ultrassa ja suoratoistamalla KV-välimuistia yli 10 GbE:n avulla voimme saada molempien laitteistojen parhaat puolet valtavilla nopeuksilla. Lyhyt selitys tässä ketjussa ja linkki koko blogikirjoitukseen alla.
LLM-päättely koostuu esitäyttö- ja dekoodausvaiheesta. Esitäyttö käsittelee kehotteen ja rakentaa KV-välimuistin. Se on laskentaan sidottu, joten se nopeutuu useammalla FLOPS:lla. Decode lukee KV-välimuistin ja luo tunnukset yksitellen. Se on muistiin sidottu, joten se nopeutuu suuremmalla muistin kaistanleveydellä.
Voimme suorittaa nämä kaksi vaihetta eri laitteilla: Esitäyttö: DGX Spark (korkean laskennan laite, 4x laskenta) Decode: M3 Ultra (suuren muistin kaistanleveyden laite, 3x muistin kaistanleveys) Nyt meidän on kuitenkin siirrettävä KV-välimuisti verkon kautta (10GbE). Tämä aiheuttaa viiveen.
Mutta KV-välimuisti luodaan jokaiselle muuntajakerrokselle. Lähettämällä kunkin kerroksen KV-välimuistin sen laskemisen jälkeen päällekkäin viestintä laskennan kanssa. Suoratoistamme KV-välimuistin ja piilotamme verkon viiveen. Saavutamme 4x nopeuden esitäytteessä ja 3x dekoodauksessa, 0 verkkoviiveellä.
Koko blogikirjoitus ja lisätietoja EXO 1.0:sta: Kiitos @NVIDIA kahden DGX Sparkin varhaisesta käytöstä. #SparkSomethingBig
439,64K