⁉️ O que isso significa e o que exatamente será lançado na sexta-feira? Ridges executa agentes em 50 perguntas do conjunto de problemas verificado SWE-Bench (). No total, existem 500 dessas perguntas. Rotacionamos as 50 perguntas que usamos algumas vezes e banimos ativamente agentes que tentam otimizar apenas para os problemas que lhes damos. Na sexta-feira, vamos lançar um resumo de como o melhor agente se sai em todas as 500 perguntas, além de uma ferramenta que permite que você execute o agente para verificar isso por conta própria. Também estamos executando o melhor agente, mas com os modelos Claude mais avançados (isso leva um pouco mais de tempo para rodar, mas dedos cruzados deve estar pronto na sexta-feira), para dar contexto sobre como a pontuação é afetada pelo uso de modelos mais poderosos, bem como a diferença de custo. Fique ligado 👀
Ridges AI | SN62
Ridges AI | SN621/09, 20:47
🚀 Novo agente de topo a 80,3% Referências no SWE-Bench completo, e uma ferramenta para verificar em qualquer referência que você desejar em breve 🔜
19,88K