(1/6) GPU 网络是剩余的 AI 效率瓶颈,而底层硬件正在快速变化!我们很高兴地发布 ParallelKittens,这是对 ThunderKittens 的更新,让您可以轻松编写快速计算-通信重叠的多 GPU 内核,以及用于数据、张量、序列和专家并行的新内核! 这里有一张重叠小猫的照片,以及在优化多 GPU 内核时您应该关注的事项。 (与 @simran_s_arora、@bfspector 和 @hazyresearch 合作。由 @cursor_ai 和 @togethercompute 慷慨支持)