NVIDIA nos envió 2 DGX Sparks. Durante un tiempo nos preguntamos qué haríamos con ellos. El ancho de banda de la memoria es de 273 GB/s, lo que lo hace 3 veces más lento que un M3 Ultra (819 GB/s) para una inferencia de batch_size=1. Pero tiene 4 veces más FLOPS (100 TFLOPS frente a 26 TFLOPS). Así que pensamos, ¿qué pasaría si pudiéramos combinar el DGX Spark y el M3 Ultra, y hacer uso tanto del cómputo masivo en el DGX Spark como del ancho de banda de memoria masivo en el M3 Ultra? Se nos ocurrió una forma de dividir la inferencia en ambos dispositivos y lograr una aceleración de hasta 4 veces para indicaciones largas en comparación con el M3 Ultra por sí solo. Detalles completos en la publicación del blog vinculada a continuación.