A NVIDIA enviou-nos 2 DGX Sparks. Durante algum tempo, perguntámo-nos o que faríamos com eles. A largura de banda de memória é de 273GB/s, tornando-o 3x mais lento que um M3 Ultra (819GB/s) para inferência com batch_size=1. Mas tem 4x mais FLOPS (100 TFLOPS em comparação com 26 TFLOPS). Então pensamos, e se pudéssemos combinar o DGX Spark e o M3 Ultra, e aproveitar tanto o enorme poder de computação do DGX Spark quanto a enorme largura de banda de memória do M3 Ultra. Encontrámos uma maneira de dividir a inferência entre os dois dispositivos e alcançar um aumento de velocidade de até 4x para prompts longos em comparação com o M3 Ultra sozinho. Todos os detalhes no post do blog ligado abaixo.