DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

NVIDIA nos envió 2 DGX Sparks. Durante un tiempo nos preguntamos qué haríamos con ellos. El ancho de banda de memoria es de 273GB/s, lo que lo hace 3 veces más lento que un M3 Ultra (819GB/s) para inferencia con batch_size=1. Pero tiene 4 veces más FLOPS (100 TFLOPS en comparación con 26 TFLOPS). Así que pensamos, ¿y si pudiéramos combinar el DGX Spark y el M3 Ultra, y aprovechar tanto el enorme poder de cómputo del DGX Spark como el enorme ancho de banda de memoria del M3 Ultra? Se nos ocurrió una forma de dividir la inferencia entre ambos dispositivos y lograr una aceleración de hasta 4 veces para prompts largos en comparación con el M3 Ultra por sí solo. Todos los detalles en la publicación del blog enlazada a continuación.

Parte superior

Clasificación

Favoritos