A Mistral parece estar prestes a lançar 2 novos modelos: Ministral 3 e Mistral Large 3. Em termos de arquitetura, parece ser: > exatamente a mesma que a llama2/3 para o Ministral, que é muito semelhante (mesmo que adicionem SWA) ao primeiro lançamento do Mistral 7B há 2 anos. > exatamente a mesma arquitetura que o DeepSeek V3 para o modelo grande (que parece ser um MoE) Para ambos, eles também usam o escalonamento rope da llama4 (em vez de yarn), e para o modelo grande, parecem implementar decodificação especulativa com eagle link para prs no tópico