(1/6) Sieciowanie GPU jest pozostałym wąskim gardłem efektywności AI, a podstawowy sprzęt zmienia się szybko! Z radością ogłaszamy ParallelKittens, aktualizację ThunderKittens, która pozwala łatwo pisać szybkie jądra multi-GPU z nałożonymi obliczeniami i komunikacją, a także nowe jądra dla danych, tensorów, sekwencji i równoległości ekspertów! Oto zdjęcie nałożonych kociąt, wraz z rzeczami, na które powinieneś zwrócić uwagę podczas optymalizacji jąder multi-GPU. (Z @simran_s_arora, @bfspector i @hazyresearch. Hojnie wspierane przez @cursor_ai i @togethercompute)