正在開發新的開源Grok 2.5! 我們已經能夠對其進行熱處理!! 現在還處於早期階段,可能會失敗,但我們所擁有的是: 一個268B的MoE,131k的上下文,8個專家,RoPE,64個GQA注意力頭和8個KV頭,64層。 通常情況下,任何時刻只有2個專家處於活動狀態。我們找到了一種方法,可以同時激活4個專家,性能僅略有下降,大約需要多1/3的GPU內存,並且輸出質量顯著提高! 如果它能通過我們的測試,我將發布詳細的操作指南!
Brian Roemmele
Brian Roemmele8月24日 09:08
我將很快重寫這篇文章,以使用新的免費開源 @xai @Grok 2.5 的緊湊版本! 我將向您展示如何在您的計算機上對您的數據進行模型微調,以便進行私有非雲使用。 這將提高質量幾個數量級! 正在努力進行中…
44.48K