正在开发新的开源Grok 2.5! 我们已经能够对其进行热处理!! 现在还处于早期阶段,可能会失败,但我们所拥有的是: 一个268B的MoE,131k的上下文,8个专家,RoPE,64个GQA注意力头和8个KV头,64层。 通常情况下,任何时刻只有2个专家处于活动状态。我们找到了一种方法,可以同时激活4个专家,性能仅略有下降,大约需要多1/3的GPU内存,并且输出质量显著提高! 如果它能通过我们的测试,我将发布详细的操作指南!
Brian Roemmele
Brian Roemmele8月24日 09:08
我将很快重写这篇文章,以使用新的免费开源 @xai @Grok 2.5 的紧凑版本! 我将向您展示如何在您的计算机上对您的数据进行模型微调,以便进行私有非云使用。 这将提高质量几个数量级! 正在努力进行中…
44.48K