Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

EXO Labs
Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio für 4x schnellere LLM-Inferenz.
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), 3.999 $
M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), 5.599 $
Der DGX Spark hat 3x weniger Speicherbandbreite als der M3 Ultra, aber 4x mehr FLOPS.
Durch das Ausführen von rechenintensivem Prefill auf dem DGX Spark, speicherintensivem Decoding auf dem M3 Ultra und Streaming des KV-Caches über 10GbE können wir das Beste aus beiden Hardwarelösungen mit massiven Geschwindigkeitssteigerungen herausholen.
Kurze Erklärung in diesem Thread & Link zum vollständigen Blogbeitrag unten.

439,61K
Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio für 4x schnellere LLM-Inferenz.
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), 3.999 $
M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), 5.599 $
Der DGX Spark hat 3x weniger Speicherbandbreite als der M3 Ultra, aber 4x mehr FLOPS.
Durch das Ausführen von rechenintensivem Prefill auf dem DGX Spark und speicherintensivem Decoding auf dem M3 Ultra und das Streamen des KV-Caches über 10GbE können wir das Beste aus beiden Hardwarelösungen herausholen und massive Geschwindigkeitssteigerungen erzielen.
Kurze Erklärung in diesem Thread & Link zum vollständigen Blogbeitrag unten.

420
Kombination von NVIDIA DGX Spark + Apple M3 Ultra Mac Studio für 4x schnellere LLM-Inferenz mit EXO.
DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16)
M3 Ultra Mac Studio: 512GB @ 819GB/s, 26 TFLOPS (fp16)
DGX Spark hat ~4x FLOPS von M3 Ultra, aber 3x weniger Speicherbandbreite.
Wir konnten eine 4x Leistungssteigerung erzielen, indem wir die Geräte kombiniert und die Berechnung und Netzwerkkommunikation (über 10GbE) sorgfältig überlappt haben. Wie?
Die LLM-Inferenz besteht aus zwei Phasen: Prefill und Decode.
Prefill ist rechenintensiv und wird schneller mit mehr FLOPS.
Decode ist speicherintensiv und wird schneller mit mehr Speicherbandbreite.
Durch die Ausführung des rechenintensiven Prefills auf dem DGX Spark und des speicherintensiven Decodes auf dem M3 Ultra konnten wir eine 4x Beschleunigung beim Prefill im Vergleich zum M3 Ultra Mac Studio allein und eine 3x Beschleunigung bei der Generierung im Vergleich zum DGX Spark allein erreichen.
Weitere Details im Blogbeitrag unten.

732
Top
Ranking
Favoriten

