(1/6) GPU 網路仍然是 AI 效率的瓶頸,而底層硬體正在快速變化!我們很高興推出 ParallelKittens,這是 ThunderKittens 的更新,讓您可以輕鬆編寫快速計算-通信重疊的多 GPU 核心,並新增數據、張量、序列和專家並行的核心! 這是一張重疊小貓的照片,以及在優化多 GPU 核心時您應該關心的事項。 (與 @simran_s_arora、@bfspector 和 @hazyresearch 合作。由 @cursor_ai 和 @togethercompute 慷慨支持)