Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

EXO Labs
Кластеризация NVIDIA DGX Spark + M3 Ultra Mac Studio для 4x более быстрой инференции LLM.
DGX Spark: 128 ГБ @ 273 ГБ/с, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256 ГБ @ 819 ГБ/с, 26 TFLOPS (fp16), $5,599
У DGX Spark в 3 раза меньше пропускной способности памяти, чем у M3 Ultra, но в 4 раза больше FLOPS.
Запуская вычислительно-ограниченный предзаполнение на DGX Spark, ограниченный памятью декодирование на M3 Ultra и стриминг KV кеша по 10GbE, мы можем получить лучшее из обоих аппаратных средств с огромными ускорениями.
Краткое объяснение в этой теме и ссылка на полный блог ниже.

439,68K
Кластеризация NVIDIA DGX Spark + M3 Ultra Mac Studio для 4x более быстрой инференции LLM.
DGX Spark: 128 ГБ @ 273 ГБ/с, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256 ГБ @ 819 ГБ/с, 26 TFLOPS (fp16), $5,599
У DGX Spark в 3 раза меньше пропускной способности памяти, чем у M3 Ultra, но в 4 раза больше FLOPS.
Запуская вычислительно-ограниченный предзаполнение на DGX Spark и ограниченный памятью декодирование на M3 Ultra, и передавая кэш KV по 10GbE, мы можем получить лучшее из обоих аппаратных средств с огромными ускорениями.
Краткое объяснение в этой теме и ссылка на полный блог ниже.

516
Комбинирование NVIDIA DGX Spark + Apple M3 Ultra Mac Studio для 4x более быстрой инференции LLM с использованием EXO.
DGX Spark: 128 ГБ @ 273 ГБ/с, 100 TFLOPS (fp16)
M3 Ultra Mac Studio: 512 ГБ @ 819 ГБ/с, 26 TFLOPS (fp16)
У DGX Spark примерно в 4 раза больше FLOPS, чем у M3 Ultra, но в 3 раза меньше пропускная способность памяти.
Нам удалось добиться увеличения производительности в 4 раза, объединив устройства и тщательно перекрывая вычисления и сетевую связь (более 10GbE). Как?
Инференция LLM состоит из двух этапов: предварительное заполнение и декодирование.
Предварительное заполнение зависит от вычислений и становится быстрее с увеличением FLOPS.
Декодирование зависит от памяти и становится быстрее с увеличением пропускной способности памяти.
Запуская вычислительно нагруженное предварительное заполнение на DGX Spark и память-зависимое декодирование на M3 Ultra, мы смогли достичь увеличения скорости в 4 раза на предварительном заполнении по сравнению с M3 Ultra Mac Studio в одиночку и увеличения скорости в 3 раза на генерации по сравнению с DGX Spark в одиночку.
Более подробная информация в блоге ниже.

825
Топ
Рейтинг
Избранное

