Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kombination von NVIDIA DGX Spark + Apple M3 Ultra Mac Studio für 4x schnellere LLM-Inferenz mit EXO.
DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16)
M3 Ultra Mac Studio: 512GB @ 819GB/s, 26 TFLOPS (fp16)
DGX Spark hat ~4x FLOPS von M3 Ultra, aber 3x weniger Speicherbandbreite.
Wir konnten eine 4x Leistungssteigerung erzielen, indem wir die Geräte kombiniert und die Berechnung und Netzwerkkommunikation (über 10GbE) sorgfältig überlappt haben. Wie?
Die LLM-Inferenz besteht aus zwei Phasen: Prefill und Decode.
Prefill ist rechenintensiv und wird schneller mit mehr FLOPS.
Decode ist speicherintensiv und wird schneller mit mehr Speicherbandbreite.
Durch die Ausführung des rechenintensiven Prefills auf dem DGX Spark und des speicherintensiven Decodes auf dem M3 Ultra konnten wir eine 4x Beschleunigung beim Prefill im Vergleich zum M3 Ultra Mac Studio allein und eine 3x Beschleunigung bei der Generierung im Vergleich zum DGX Spark allein erreichen.
Weitere Details im Blogbeitrag unten.

Top
Ranking
Favoriten

