Combinando NVIDIA DGX Spark + Apple M3 Ultra Mac Studio para uma inferência LLM 4x mais rápida usando EXO. DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16) M3 Ultra Mac Studio: 512GB @ 819GB/s, 26 TFLOPS (fp16) O DGX Spark tem ~4x FLOPS do M3 Ultra, mas 3x menos largura de banda de memória. Conseguimos um aumento de desempenho de 4x ao combinar os dispositivos e sobrepondo cuidadosamente a computação e a comunicação de rede (mais de 10GbE). Como? A inferência LLM consiste em duas etapas: pré-preenchimento e decodificação. O pré-preenchimento é limitado pela computação e fica mais rápido com mais FLOPS. A decodificação é limitada pela memória e fica mais rápida com mais largura de banda de memória. Ao executar o pré-preenchimento limitado pela computação no DGX Spark e a decodificação limitada pela memória no M3 Ultra, conseguimos alcançar um aumento de 4x na velocidade do pré-preenchimento em comparação com o M3 Ultra Mac Studio sozinho e um aumento de 3x na geração em comparação com o DGX Spark sozinho. Mais detalhes no post do blog abaixo.