(1/6) GPU-nettverk er den gjenværende flaskehalsen i AI-effektivitet, og den underliggende maskinvaren endrer seg raskt! Vi er glade for å slippe ParallelKittens, en oppdatering til ThunderKittens som lar deg enkelt skrive raske multi-GPU-kjerner med overlappende beregning og kommunikasjon, sammen med nye kjerner for data, tensor, sekvens og ekspertparallellisme! Her er et bilde av overlappende kattunger, sammen med ting du bør bry deg om når du optimaliserer multi-GPU-kjerner. (Med @simran_s_arora, @bfspector og @hazyresearch. Generøst støttet av @cursor_ai og @togethercompute)