(1/6) La red de GPU es el último cuello de botella en la eficiencia de la IA, ¡y el hardware subyacente está cambiando rápidamente! Estamos felices de presentar ParallelKittens, una actualización de ThunderKittens que te permite escribir fácilmente núcleos multi-GPU superpuestos de comunicación y computación rápida, junto con nuevos núcleos para paralelismo de datos, tensores, secuencias y expertos. Aquí tienes una foto de gatitos superpuestos, junto con cosas que deberías tener en cuenta al optimizar núcleos multi-GPU. (Con @simran_s_arora, @bfspector y @hazyresearch. Generosamente apoyado por @cursor_ai y @togethercompute)