Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Combinando NVIDIA DGX Spark + Apple M3 Ultra Mac Studio para una inferencia LLM 4x más rápida usando EXO.
DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16)
M3 Ultra Mac Studio: 512GB @ 819GB/s, 26 TFLOPS (fp16)
DGX Spark tiene ~4x FLOPS que el M3 Ultra pero 3x menos ancho de banda de memoria.
Pudimos obtener un aumento de rendimiento de 4x combinando los dispositivos y superponiendo cuidadosamente la computación y la comunicación de red (más de 10GbE). ¿Cómo?
La inferencia LLM consiste en dos etapas: prellenado y decodificación.
El prellenado está limitado por la computación y se acelera con más FLOPS.
La decodificación está limitada por la memoria y se acelera con más ancho de banda de memoria.
Al ejecutar el prellenado limitado por la computación en el DGX Spark y la decodificación limitada por la memoria en el M3 Ultra, pudimos lograr un aumento de velocidad de 4x en el prellenado en comparación con el M3 Ultra Mac Studio solo y un aumento de 3x en la generación en comparación con el DGX Spark solo.
Más detalles en la publicación del blog a continuación.

Parte superior
Clasificación
Favoritos

