Agrupamento NVIDIA DGX Spark + M3 Ultra Mac Studio para uma inferência LLM 4x mais rápida. DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599 O DGX Spark tem 3x menos largura de banda de memória do que o M3 Ultra, mas 4x mais FLOPS. Ao executar o pré-preenchimento limitado por computação no DGX Spark e a decodificação limitada por memória no M3 Ultra, e transmitindo o cache KV através de 10GbE, conseguimos obter o melhor de ambos os hardwares com aumentos de velocidade massivos. Explicação curta neste tópico e link para o post completo do blog abaixo.
A inferência LLM consiste em uma fase de pré-preenchimento e uma fase de decodificação. O pré-preenchimento processa o prompt, construindo um cache KV. É limitado por computação - fica mais rápido com mais FLOPS. A decodificação lê o cache KV e gera tokens um por um. É limitado por memória - fica mais rápido com mais largura de banda de memória.
498