Кластеризация NVIDIA DGX Spark + M3 Ultra Mac Studio для 4x более быстрой инференции LLM. DGX Spark: 128 ГБ @ 273 ГБ/с, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256 ГБ @ 819 ГБ/с, 26 TFLOPS (fp16), $5,599 У DGX Spark в 3 раза меньше пропускной способности памяти, чем у M3 Ultra, но в 4 раза больше FLOPS. Запуская вычислительно-ограниченный предзаполнение на DGX Spark и ограниченный памятью декодирование на M3 Ultra, и передавая кэш KV по 10GbE, мы можем получить лучшее из обоих аппаратных средств с огромными ускорениями. Краткое объяснение в этой теме и ссылка на полный блог ниже.
Инференс LLM состоит из стадии предварительного заполнения и стадии декодирования. Предварительное заполнение обрабатывает запрос, создавая кеш KV. Это ограничено вычислениями - становится быстрее с увеличением FLOPS. Декодирование считывает кеш KV и генерирует токены по одному. Это ограничено памятью - становится быстрее с увеличением пропускной способности памяти.
502