Combinando NVIDIA DGX Spark + Apple M3 Ultra Mac Studio para una inferencia LLM 4x más rápida usando EXO. DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16) M3 Ultra Mac Studio: 512GB @ 819GB/s, 26 TFLOPS (fp16) DGX Spark tiene ~4x FLOPS que el M3 Ultra pero 3x menos ancho de banda de memoria. Pudimos obtener un aumento de rendimiento de 4x combinando los dispositivos y superponiendo cuidadosamente la computación y la comunicación de red (más de 10GbE). ¿Cómo? La inferencia LLM consiste en dos etapas: prellenado y decodificación. El prellenado está limitado por la computación y se acelera con más FLOPS. La decodificación está limitada por la memoria y se acelera con más ancho de banda de memoria. Al ejecutar el prellenado limitado por la computación en el DGX Spark y la decodificación limitada por la memoria en el M3 Ultra, pudimos lograr un aumento de velocidad de 4x en el prellenado en comparación con el M3 Ultra Mac Studio solo y un aumento de 3x en la generación en comparación con el DGX Spark solo. Más detalles en la publicación del blog a continuación.