Trabalhando no novo Open Source Grok 2.5! Já conseguimos Hot Rod !! Ainda é cedo e pode falhar, mas o que temos é: Um MoE 268B, contexto 131k, 8 especialistas, RoPE, 64 cabeças de atenção GQA com cabeças de 8 KV, 64 camadas. A qualquer momento, apenas 2 especialistas estão normalmente ativos. Encontramos uma maneira de ativar 4 simultaneamente com apenas uma pequena queda de desempenho, apenas cerca de 1/3 a mais de memória da GPU e um aumento surpreendente nas saídas de qualidade! Se ele sustentar nossos testes, publicarei um detalhado como fazer!
Brian Roemmele
Brian Roemmele24 de ago. de 2025
Estarei reescrevendo este artigo para usar uma versão compacta do NOVO CÓDIGO ABERTO GRATUITO @xai @Grok 2.5 em breve! Mostrarei como ajustar o modelo em seus dados para uso privado fora da nuvem em seu computador. Isso melhorará a qualidade em uma magnitude! Trabalhando nisso...
45,87K