DApp Store | Web3 Hub für Ereignisse und Spiele

Was kann ich mit Discover machen?

Trend-Themen

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-2,61 %

Boopa-8,59 %

PORK-0,25 %

EXO Labs

EXO Labs16. Okt. 2025

Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio für 4x schnellere LLM-Inferenz. DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), 3.999 $ M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), 5.599 $ Der DGX Spark hat 3x weniger Speicherbandbreite als der M3 Ultra, aber 4x mehr FLOPS. Durch das Ausführen von rechenintensivem Prefill auf dem DGX Spark, speicherintensivem Decoding auf dem M3 Ultra und Streaming des KV-Caches über 10GbE können wir das Beste aus beiden Hardwarelösungen mit massiven Geschwindigkeitssteigerungen herausholen. Kurze Erklärung in diesem Thread & Link zum vollständigen Blogbeitrag unten.

439,61K

EXO Labs16. Okt. 2025

Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio für 4x schnellere LLM-Inferenz. DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), 3.999 $ M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), 5.599 $ Der DGX Spark hat 3x weniger Speicherbandbreite als der M3 Ultra, aber 4x mehr FLOPS. Durch das Ausführen von rechenintensivem Prefill auf dem DGX Spark und speicherintensivem Decoding auf dem M3 Ultra und das Streamen des KV-Caches über 10GbE können wir das Beste aus beiden Hardwarelösungen herausholen und massive Geschwindigkeitssteigerungen erzielen. Kurze Erklärung in diesem Thread & Link zum vollständigen Blogbeitrag unten.

420

EXO Labs15. Okt. 2025

Kombination von NVIDIA DGX Spark + Apple M3 Ultra Mac Studio für 4x schnellere LLM-Inferenz mit EXO. DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16) M3 Ultra Mac Studio: 512GB @ 819GB/s, 26 TFLOPS (fp16) DGX Spark hat ~4x FLOPS von M3 Ultra, aber 3x weniger Speicherbandbreite. Wir konnten eine 4x Leistungssteigerung erzielen, indem wir die Geräte kombiniert und die Berechnung und Netzwerkkommunikation (über 10GbE) sorgfältig überlappt haben. Wie? Die LLM-Inferenz besteht aus zwei Phasen: Prefill und Decode. Prefill ist rechenintensiv und wird schneller mit mehr FLOPS. Decode ist speicherintensiv und wird schneller mit mehr Speicherbandbreite. Durch die Ausführung des rechenintensiven Prefills auf dem DGX Spark und des speicherintensiven Decodes auf dem M3 Ultra konnten wir eine 4x Beschleunigung beim Prefill im Vergleich zum M3 Ultra Mac Studio allein und eine 3x Beschleunigung bei der Generierung im Vergleich zum DGX Spark allein erreichen. Weitere Details im Blogbeitrag unten.

732

Top

Ranking

Favoriten

Deutsch 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

Mehr über OKX Web3

Herunterladen Learn Über uns Karriere Kontakt Nutzungsbedingungen Datenschutzbestimmungen X (ehemals Twitter)

Produkt

Wallet-Dashboard Swap OKX NFT Earn Entdecken Entwickeln Explorer Sicherheit

Support

Support-Center Offizielle Verifizierung Ankündigungen DEX-Gebührenplan Mit OKX verbinden Bitcoin-Wallet Ethereum-Wallet Solana-Wallet