Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio pour une inférence LLM 4x plus rapide.
DGX Spark : 128 Go @ 273 Go/s, 100 TFLOPS (fp16), 3 999 $
M3 Ultra : 256 Go @ 819 Go/s, 26 TFLOPS (fp16), 5 599 $
Le DGX Spark a 3x moins de bande passante mémoire que le M3 Ultra mais 4x plus de FLOPS.
En exécutant un pré-remplissage limité par le calcul sur le DGX Spark, un décodage limité par la mémoire sur le M3 Ultra, et en diffusant le cache KV via 10GbE, nous sommes en mesure d'obtenir le meilleur des deux matériels avec des gains de vitesse massifs.
Brève explication dans ce fil & lien vers l'article de blog complet ci-dessous.

L'inférence LLM se compose d'une étape de pré-remplissage et d'une étape de décodage.
Le pré-remplissage traite l'invite, construisant un cache KV. C'est limité par le calcul, donc il devient plus rapide avec plus de FLOPS.
Le décodage lit le cache KV et génère des jetons un par un. C'est limité par la mémoire, donc il devient plus rapide avec plus de bande passante mémoire.
Nous pouvons exécuter ces deux étapes sur des appareils différents :
Pré-remplissage : DGX Spark (appareil à haute capacité de calcul, 4x capacité de calcul)
Décodage : M3 Ultra (appareil à large bande passante mémoire, 3x bande passante mémoire)
Cependant, nous devons maintenant transférer le cache KV sur le réseau (10GbE). Cela introduit un délai.
Mais le cache KV est créé pour chaque couche de transformateur. En envoyant le cache KV de chaque couche après qu'il ait été calculé, nous chevauchons la communication avec le calcul.
Nous diffusons le cache KV et masquons le délai réseau.
Nous réalisons un gain de vitesse de 4x en pré-remplissage et de 3x en décodage, avec 0 délai réseau.
Article de blog complet et plus de détails sur EXO 1.0 :
Merci @NVIDIA pour l'accès anticipé à deux DGX Sparks. #SparkSomethingBig
439,63K
Meilleurs
Classement
Favoris

