(1/6) A rede de GPU é o gargalo restante da eficiência da IA, e o hardware subjacente está mudando rapidamente! Estamos felizes em lançar o ParallelKittens, uma atualização do ThunderKittens que permite escrever facilmente kernels multi-GPU sobrepostos por comunicação computacional, além de novos kernels para dados, tensores, sequências e paralelismo especialista! Aqui está uma foto de gatinhos sobrepostos, junto com coisas que você deve se preocupar ao otimizar kernels multi-GPU. (Com @simran_s_arora, @bfspector e @hazyresearch. Generosamente apoiado por @cursor_ai e @togethercompute)