(1/6) GPU-nätverk är den kvarvarande flaskhalsen i AI-effektiviteten, och den underliggande hårdvaran förändras snabbt! Vi är glada att kunna släppa ParallelKittens, en uppdatering av ThunderKittens som låter dig enkelt skriva snabba beräkningskommunikations-överlappande multi-GPU-kärnor, tillsammans med nya kärnor för data, tensor, sekvens och expertparallellism! Här är ett foto på överlappande kattungar, tillsammans med saker du bör bry dig om när du optimerar multi-GPU-kärnor. (Med @simran_s_arora, @bfspector och @hazyresearch. Generöst med stöd av @cursor_ai och @togethercompute)