Combinando NVIDIA DGX Spark + Apple M3 Ultra Mac Studio para inferência LLM 4x mais rápida usando EXO. Centelha DGX: 128 GB @ 273 GB/s, 100 TFLOPS (fp16) M3 Ultra Mac Studio: 512 GB @ 819 GB/s, 26 TFLOPS (fp16) O DGX Spark tem ~4x FLOPS do M3 Ultra, mas 3x menos largura de banda de memória. Conseguimos obter um aumento de desempenho de 4x combinando os dispositivos e sobrepondo cuidadosamente a computação e a comunicação de rede (acima de 10 GbE). Como? A inferência de LLM consiste em dois estágios: pré-preenchimento e decodificação. O preenchimento prévio é vinculado à computação e fica mais rápido com mais FLOPS. A decodificação é vinculada à memória e fica mais rápida com mais largura de banda de memória. Ao executar o pré-preenchimento vinculado à computação no DGX Spark e a decodificação vinculada à memória no M3 Ultra, conseguimos obter uma aceleração de 4x no preenchimento prévio em comparação com o M3 Ultra Mac Studio sozinho e uma aceleração de 3x na geração em comparação com o DGX Spark sozinho. Mais detalhes na postagem do blog abaixo.