(1/6) Rețeaua GPU este blocajul rămas de eficiență AI, iar hardware-ul de bază se schimbă rapid! Suntem bucuroși să lansăm ParallelKittens, o actualizare a ThunderKittens care îți permite să scrii cu ușurință nucleuri multi-GPU suprapuse rapid prin proces de calcul și comunicare, împreună cu nuclee noi pentru date, tensor, secvență și paralelism de expert! Iată o fotografie cu pisicuțe suprapuse, împreună cu lucruri de care ar trebui să ții cont când optimizezi kernel-uri multi-GPU. (Cu @simran_s_arora, @bfspector și @hazyresearch. Sprijin generos de @cursor_ai și @togethercompute)