Магазин DApp | Центр Web3 для подій та ігор | OKX Гаманець

Що можна робити за допомогою Discover

background background

discoveryBanners

Актуальні теми

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN-5,01%

#

Boop.Fun leading the way with a new launchpad on Solana.

header

EXO Labs

EXO Labs

EXO Labs16 жовт. 2025 р.

Кластеризація NVIDIA DGX Spark + M3 Ultra Mac Studio для 4-кратного швидшого висновування LLM. DGX Spark: 128 ГБ @ 273 ГБ/с, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256 ГБ @ 819 ГБ/с, 26 TFLOPS (fp16), $5,599 DGX Spark має в 3 рази меншу пропускну здатність пам'яті, ніж M3 Ultra, але в 4 рази більше FLOPS. Запускаючи повне заповнення з прив'язкою до обчислень на DGX Spark, декодування з прив'язкою до пам'яті на M3 Ultra і потокове передавання кешу KV через 10 GbE, ми можемо отримати найкраще з обох апаратних засобів із величезним прискоренням. Коротке пояснення в цій темі та посилання на повну публікацію в блозі нижче.

439,67K

EXO Labs

EXO Labs16 жовт. 2025 р.

Кластеризація NVIDIA DGX Spark + M3 Ultra Mac Studio для 4-кратного швидшого висновування LLM. DGX Spark: 128 ГБ @ 273 ГБ/с, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256 ГБ @ 819 ГБ/с, 26 TFLOPS (fp16), $5,599 DGX Spark має в 3 рази меншу пропускну здатність пам'яті, ніж M3 Ultra, але в 4 рази більше FLOPS. Запустивши повне заповнення з прив'язкою до обчислень на DGX Spark і декодування з прив'язкою до пам'яті на M3 Ultra, а також передаючи потокову передачу кешу KV через 10 GbE, ми можемо отримати найкраще з обох апаратних засобів із величезним прискоренням. Коротке пояснення в цій темі та посилання на повну публікацію в блозі нижче.

502

EXO Labs

EXO Labs15 жовт. 2025 р.

Поєднання NVIDIA DGX Spark + Apple M3 Ultra Mac Studio для 4-кратного швидшого висновку LLM за допомогою EXO. DGX Spark: 128 ГБ @ 273 ГБ/с, 100 TFLOPS (fp16) M3 Ultra Mac Studio: 512 ГБ @ 819 ГБ/с, 26 TFLOPS (fp16) DGX Spark має ~4 FLOPS від M3 Ultra, але в 3 рази меншу пропускну здатність пам'яті. Ми змогли отримати 4-кратне збільшення продуктивності завдяки об'єднанню пристроїв та ретельному перекриттю обчислень і мережевого зв'язку (понад 10 GbE). Як? Висновок LLM складається з двох етапів: попереднього заповнення та декодування. Попереднє заповнення прив'язане до обчислень і стає швидшим із більшою кількістю FLOPS. Декодування обмежується пам'яттю і стає швидшим із більшою пропускною здатністю пам'яті. Запустивши пов'язане з обчисленнями попереднє заповнення на DGX Spark і декодування з прив'язкою до пам'яті на M3 Ultra, ми змогли досягти 4-кратного прискорення на попередньому заповненні порівняно лише з M3 Ultra Mac Studio та 3-кратне прискорення під час генерації порівняно з одним лише DGX Spark. Більше подробиць у дописі блогу нижче.

812

Найкращі

Рейтинг

Вибране

©2017 - 2025 WEB3.OKX.COM

Українська 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

Більше про OKX Web3

Завантажити Академія Про нас Вакансії Зв’яжіться з нами Умови обслуговування Повідомлення про конфіденційність X (колишня назва — Twitter)

Продукт

Інформаційна панель гаманця Своп Ринок Earn Дізнатися більше Створити Оглядач Безпека

Підтримка

Центр підтримки Захист від фішингу Оголошення Графік комісій у DEX Підключитися з OKX Гаманець Bitcoin Гаманець Ethereum Гаманець Solana