Магазин DApp | Web3-центр мероприятий и игр | Кошелек OKX

Все возможности Discover

background background

discoveryBanners

Актуальные темы

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN-1,91 %

#

Boop.Fun leading the way with a new launchpad on Solana.

header

EXO Labs

EXO Labs

EXO Labs16 окт. 2025 г.

Кластеризация NVIDIA DGX Spark + M3 Ultra Mac Studio для 4x более быстрой инференции LLM. DGX Spark: 128 ГБ @ 273 ГБ/с, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256 ГБ @ 819 ГБ/с, 26 TFLOPS (fp16), $5,599 У DGX Spark в 3 раза меньше пропускной способности памяти, чем у M3 Ultra, но в 4 раза больше FLOPS. Запуская вычислительно-ограниченный предзаполнение на DGX Spark, ограниченный памятью декодирование на M3 Ultra и стриминг KV кеша по 10GbE, мы можем получить лучшее из обоих аппаратных средств с огромными ускорениями. Краткое объяснение в этой теме и ссылка на полный блог ниже.

439,68K

EXO Labs

EXO Labs16 окт. 2025 г.

Кластеризация NVIDIA DGX Spark + M3 Ultra Mac Studio для 4x более быстрой инференции LLM. DGX Spark: 128 ГБ @ 273 ГБ/с, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256 ГБ @ 819 ГБ/с, 26 TFLOPS (fp16), $5,599 У DGX Spark в 3 раза меньше пропускной способности памяти, чем у M3 Ultra, но в 4 раза больше FLOPS. Запуская вычислительно-ограниченный предзаполнение на DGX Spark и ограниченный памятью декодирование на M3 Ultra, и передавая кэш KV по 10GbE, мы можем получить лучшее из обоих аппаратных средств с огромными ускорениями. Краткое объяснение в этой теме и ссылка на полный блог ниже.

516

EXO Labs

EXO Labs15 окт. 2025 г.

Комбинирование NVIDIA DGX Spark + Apple M3 Ultra Mac Studio для 4x более быстрой инференции LLM с использованием EXO. DGX Spark: 128 ГБ @ 273 ГБ/с, 100 TFLOPS (fp16) M3 Ultra Mac Studio: 512 ГБ @ 819 ГБ/с, 26 TFLOPS (fp16) У DGX Spark примерно в 4 раза больше FLOPS, чем у M3 Ultra, но в 3 раза меньше пропускная способность памяти. Нам удалось добиться увеличения производительности в 4 раза, объединив устройства и тщательно перекрывая вычисления и сетевую связь (более 10GbE). Как? Инференция LLM состоит из двух этапов: предварительное заполнение и декодирование. Предварительное заполнение зависит от вычислений и становится быстрее с увеличением FLOPS. Декодирование зависит от памяти и становится быстрее с увеличением пропускной способности памяти. Запуская вычислительно нагруженное предварительное заполнение на DGX Spark и память-зависимое декодирование на M3 Ultra, мы смогли достичь увеличения скорости в 4 раза на предварительном заполнении по сравнению с M3 Ultra Mac Studio в одиночку и увеличения скорости в 3 раза на генерации по сравнению с DGX Spark в одиночку. Более подробная информация в блоге ниже.

825

Топ

Рейтинг

Избранное

©2017 - 2025 WEB3.OKX.COM

Русский 简体中文繁體中文 English Tiếng Việt Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

Подробнее об OKX Web3

Скачать Академия О нас Вакансии Связаться с нами Условия оказания услуг Уведомление о конфиденциальности X (бывший Twitter)

Продукт

Панель кошелька Обмен Маркетплейс DeFi Discover Разработка Обозреватель Безопасность

Поддержка

Центр поддержки Защита от фишинга Объявления График комиссий DEX Сообщество ОКХ Кошелек Bitcoin Кошелек Ethereum Кошелек Solana