Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Кластеризация NVIDIA DGX Spark + M3 Ultra Mac Studio для 4x более быстрой инференции LLM.
DGX Spark: 128 ГБ @ 273 ГБ/с, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256 ГБ @ 819 ГБ/с, 26 TFLOPS (fp16), $5,599
У DGX Spark в 3 раза меньше пропускной способности памяти, чем у M3 Ultra, но в 4 раза больше FLOPS.
Запуская вычислительно-ограниченный предзаполнение на DGX Spark и ограниченный памятью декодирование на M3 Ultra, и передавая кэш KV по 10GbE, мы можем получить лучшее из обоих аппаратных средств с огромными ускорениями.
Краткое объяснение в этой теме и ссылка на полный блог ниже.

Инференс LLM состоит из стадии предварительного заполнения и стадии декодирования.
Предварительное заполнение обрабатывает запрос, создавая кеш KV. Это ограничено вычислениями - становится быстрее с увеличением FLOPS.
Декодирование считывает кеш KV и генерирует токены по одному. Это ограничено памятью - становится быстрее с увеличением пропускной способности памяти.
502
Топ
Рейтинг
Избранное

