📣 Novo benchmark Vals AI acaba de ser lançado 📣
Construímos o benchmark SAGE depois de descobrir que os modelos lutam para avaliar o trabalho dos alunos. Paradoxalmente, os melhores modelos agora podem resolver problemas matemáticos desafiadores + ganhar IMO, mas lutam para quebrar 50% ao avaliar.
(1/5)
O Soneto 4.5 acaba de ser lançado - ocupa o lugar # 1 em nossos benchmarks de finanças e programação! Tivemos a chance de testar o novo modelo @claudeai antes do lançamento e descobrimos que ele é excepcionalmente capaz, especialmente para aplicações agênticas.
(1/6)
O GPT-5 Codex alcançou um desempenho impressionante em quase todos os benchmarks que avaliamos! O mais notável é sua melhoria de 10% no Terminal-Bench em relação ao # 1 anterior, GPT-5. Parabéns à equipe @OpenAI por um forte modelo de codificação!
(1/6)