DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Kombination von NVIDIA DGX Spark + Apple M3 Ultra Mac Studio für 4x schnellere LLM-Inferenz mit EXO. DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16) M3 Ultra Mac Studio: 512GB @ 819GB/s, 26 TFLOPS (fp16) DGX Spark hat ~4x FLOPS von M3 Ultra, aber 3x weniger Speicherbandbreite. Wir konnten eine 4x Leistungssteigerung erzielen, indem wir die Geräte kombiniert und die Berechnung und Netzwerkkommunikation (über 10GbE) sorgfältig überlappt haben. Wie? Die LLM-Inferenz besteht aus zwei Phasen: Prefill und Decode. Prefill ist rechenintensiv und wird schneller mit mehr FLOPS. Decode ist speicherintensiv und wird schneller mit mehr Speicherbandbreite. Durch die Ausführung des rechenintensiven Prefills auf dem DGX Spark und des speicherintensiven Decodes auf dem M3 Ultra konnten wir eine 4x Beschleunigung beim Prefill im Vergleich zum M3 Ultra Mac Studio allein und eine 3x Beschleunigung bei der Generierung im Vergleich zum DGX Spark allein erreichen. Weitere Details im Blogbeitrag unten.

Top

Ranking

Favoriten