Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA DGX Spark + M3 Ultra Mac Studion klusterointi 4 kertaa nopeampaan LLM-päättelyyn.
DGX Spark: 128 Gt @ 273 Gt/s, 100 TFLOPS (fp16), 3,999 dollaria
M3 Ultra: 256 Gt @ 819 Gt/s, 26 TFLOPS (fp16), 5,599 dollaria
DGX Sparkissa on 3 kertaa vähemmän muistin kaistanleveyttä kuin M3 Ultrassa, mutta 4 kertaa enemmän FLOPSeja.
Suorittamalla laskentaan sidotun esitäytön DGX Sparkissa, muistiin sidotun dekoodauksen M3 Ultrassa ja suoratoistamalla KV-välimuistia yli 10 GbE:n avulla voimme saada molempien laitteistojen parhaat puolet valtavilla nopeuksilla.
Lyhyt selitys tässä ketjussa ja linkki koko blogikirjoitukseen alla.

LLM-päättely koostuu esitäyttö- ja dekoodausvaiheesta.
Esitäyttö käsittelee kehotteen ja rakentaa KV-välimuistin. Se on laskentaan sidottu, joten se nopeutuu useammalla FLOPS:lla.
Decode lukee KV-välimuistin ja luo tunnukset yksitellen. Se on muistiin sidottu, joten se nopeutuu suuremmalla muistin kaistanleveydellä.
Voimme suorittaa nämä kaksi vaihetta eri laitteilla:
Esitäyttö: DGX Spark (korkean laskennan laite, 4x laskenta)
Decode: M3 Ultra (suuren muistin kaistanleveyden laite, 3x muistin kaistanleveys)
Nyt meidän on kuitenkin siirrettävä KV-välimuisti verkon kautta (10GbE). Tämä aiheuttaa viiveen.
Mutta KV-välimuisti luodaan jokaiselle muuntajakerrokselle. Lähettämällä kunkin kerroksen KV-välimuistin sen laskemisen jälkeen päällekkäin viestintä laskennan kanssa.
Suoratoistamme KV-välimuistin ja piilotamme verkon viiveen.
Saavutamme 4x nopeuden esitäytteessä ja 3x dekoodauksessa, 0 verkkoviiveellä.
Koko blogikirjoitus ja lisätietoja EXO 1.0:sta:
Kiitos @NVIDIA kahden DGX Sparkin varhaisesta käytöstä. #SparkSomethingBig
439,64K
Johtavat
Rankkaus
Suosikit

