Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio pour une inférence LLM 4x plus rapide. DGX Spark : 128 Go @ 273 Go/s, 100 TFLOPS (fp16), 3 999 $ M3 Ultra : 256 Go @ 819 Go/s, 26 TFLOPS (fp16), 5 599 $ Le DGX Spark a 3x moins de bande passante mémoire que le M3 Ultra mais 4x plus de FLOPS. En exécutant le pré-remplissage lié au calcul sur le DGX Spark et le décodage lié à la mémoire sur le M3 Ultra, et en diffusant le cache KV sur 10GbE, nous sommes en mesure d'obtenir le meilleur des deux matériels avec des gains de vitesse massifs. Brève explication dans ce fil & lien vers l'article de blog complet ci-dessous.
L'inférence LLM se compose d'une étape de pré-remplissage et d'une étape de décodage. Le pré-remplissage traite l'invite, construisant un cache KV. C'est lié au calcul - il devient plus rapide avec plus de FLOPS. Le décodage lit le cache KV et génère des jetons un par un. C'est lié à la mémoire - il devient plus rapide avec plus de bande passante mémoire.
492