DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio für 4x schnellere LLM-Inferenz. DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), 3.999 $ M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), 5.599 $ Der DGX Spark hat 3x weniger Speicherbandbreite als der M3 Ultra, aber 4x mehr FLOPS. Durch das Ausführen von rechenintensivem Prefill auf dem DGX Spark, speicherintensivem Decoding auf dem M3 Ultra und Streaming des KV-Caches über 10GbE können wir das Beste aus beiden Hardwarelösungen mit massiven Geschwindigkeitssteigerungen herausholen. Kurze Erklärung in diesem Thread & Link zum vollständigen Blogbeitrag unten.

Die LLM-Inferenz besteht aus einer Vorbefüllung und einer Dekodierungsphase. Die Vorbefüllung verarbeitet das Eingangsformat und erstellt einen KV-Cache. Sie ist rechenintensiv, daher wird sie mit mehr FLOPS schneller. Die Dekodierung liest den KV-Cache und generiert Token einzeln. Sie ist speicherintensiv, daher wird sie mit mehr Speicherbandbreite schneller.

Wir können diese beiden Phasen auf verschiedenen Geräten ausführen: Vorbefüllen: DGX Spark (hochleistungsfähiges Gerät, 4x Rechenleistung) Dekodieren: M3 Ultra (Gerät mit hoher Speicherbandbreite, 3x Speicherbandbreite) Jetzt müssen wir jedoch den KV-Cache über das Netzwerk (10GbE) übertragen. Dies führt zu einer Verzögerung.

Aber der KV-Cache wird für jede Transformer-Schicht erstellt. Indem wir den KV-Cache jeder Schicht nach seiner Berechnung senden, überlappen wir Kommunikation mit Berechnung. Wir streamen den KV-Cache und verbergen die Netzwerkverzögerung. Wir erreichen eine 4-fache Beschleunigung beim Vorabfüllen und eine 3-fache beim Dekodieren, mit 0 Netzwerkverzögerung.

Vollständiger Blogbeitrag und weitere Details zu EXO 1.0: Danke @NVIDIA für den frühen Zugang zu zwei DGX Sparks. #SparkSomethingBig

439,61K

Top

Ranking

Favoriten