(1/6) Сетевое взаимодействие GPU остается узким местом в эффективности ИИ, и базовое оборудование быстро меняется! Мы рады представить ParallelKittens, обновление ThunderKittens, которое позволяет вам легко писать быстрое вычислительно-коммуникационное перекрытие многопроцессорных ядер GPU, а также новые ядра для данных, тензоров, последовательностей и экспертного параллелизма! Вот фото перекрывающихся котят, а также вещи, о которых вам следует заботиться при оптимизации многопроцессорных ядер GPU. (С @simran_s_arora, @bfspector и @hazyresearch. Щедро поддержано @cursor_ai и @togethercompute)