(1/6) Il networking GPU è il collo di bottiglia rimanente per l'efficienza dell'AI, e l'hardware sottostante sta cambiando rapidamente! Siamo felici di rilasciare ParallelKittens, un aggiornamento di ThunderKittens che ti consente di scrivere facilmente kernel multi-GPU sovrapposti per la computazione e la comunicazione, insieme a nuovi kernel per dati, tensori, sequenze e parallelismo esperto! Ecco una foto di gattini sovrapposti, insieme a cose di cui dovresti preoccuparti quando ottimizzi i kernel multi-GPU. (Con @simran_s_arora, @bfspector e @hazyresearch. Generosamente supportato da @cursor_ai e @togethercompute)