DApp Store | Hub Web3 pentru evenimente și jocuri | OKX Wallet

Ce pot să fac cu Discover

background background

discoveryBanners

Subiecte populare

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN-7,17 %

#

Boop.Fun leading the way with a new launchpad on Solana.

header

EXO Labs

EXO Labs

EXO Labs16 oct. 2025

Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio pentru inferență LLM de 4 ori mai rapidă. DGX Scânteie: 128 GB @ 273 GB/s, 100 TFLOPS (fp16), 3.999 USD M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), 5.599 USD DGX Spark are de 3 ori mai puțină lățime de bandă de memorie decât M3 Ultra, dar de 4 ori mai mult FLOPS. Rulând preumplerea legată de calcul pe DGX Spark, decodarea legată de memorie pe M3 Ultra și transmiterea cache-ului KV peste 10GbE, putem obține tot ce este mai bun din ambele hardware cu accelerări masive. Scurtă explicație în acest subiect și link către postarea completă de mai jos.

439,67K

EXO Labs

EXO Labs16 oct. 2025

Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio pentru inferență LLM de 4 ori mai rapidă. DGX Scânteie: 128 GB @ 273 GB/s, 100 TFLOPS (fp16), 3.999 USD M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), 5.599 USD DGX Spark are de 3 ori mai puțină lățime de bandă de memorie decât M3 Ultra, dar de 4 ori mai mult FLOPS. Rulând preumplerea legată de calcul pe DGX Spark și decodarea legată de memorie pe M3 Ultra și transmitând memoria cache KV peste 10GbE, putem obține tot ce este mai bun din ambele hardware cu accelerări masive. Scurtă explicație în acest subiect și link către postarea completă de mai jos.

503

EXO Labs

EXO Labs15 oct. 2025

Combinarea NVIDIA DGX Spark + Apple M3 Ultra Mac Studio pentru inferențe LLM de 4 ori mai rapide folosind EXO. DGX Scânteie: 128 GB @ 273 GB/s, 100TFLOPS (fp16) M3 Ultra Mac Studio: 512 GB @ 819 GB/s, 26 TFLOPS (fp16) DGX Spark are ~4x FLOPS de M3 Ultra, dar de 3 ori mai puțină lățime de bandă a memoriei. Am reușit să obținem o creștere a performanței de 4 ori prin combinarea dispozitivelor și suprapunerea atentă a calculului și a comunicării în rețea (peste 10GbE). Cum? Inferența LLM constă în două etape: precompletare și decodare. Preumplerea este legată de calcul și devine mai rapidă cu mai multe FLOPS. Decodarea este legată de memorie și devine mai rapidă cu mai multă lățime de bandă a memoriei. Rulând preumplerea legată de calcul pe DGX Spark și decodarea legată de memorie pe M3 Ultra, am reușit să obținem o viteză de 4 ori la preumplere în comparație cu M3 Ultra Mac Studio și o accelerare de 3 ori la generare în comparație cu DGX Spark singur. Mai multe detalii în postarea de mai jos.

813

Limită superioară

Clasament

Favorite

©2017 - 2025 WEB3.OKX.COM

Română 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

Mai multe despre OKX Web3

Descărcați Învățați Despre NOI Cariere Contactați-ne Condiții de utilizare a serviciului Declarație de confidențialitate X (fost Twitter)

Produs

Tablou de bord pentru portofel Schimbați Piață Câștigați Descoperiți Construiți Explorator Securitate

Asistență

Centru de asistență Verificare oficială Anunțuri Program de comisioane DEX Conectare cu OKX Portofel Bitcoin Portofel Ethereum Portofel Solana