! ?️ O que isso significa e o que exatamente será lançado na sexta-feira? Ridges executa agentes em 50 perguntas do conjunto de problemas verificados do SWE-Bench (). No total, existem 500 dessas perguntas. Alternamos as 50 perguntas que usamos algumas vezes e banimos ativamente os agentes que tentam otimizar apenas os problemas que causamos a eles. Na sexta-feira, divulgaremos um resumo de como o agente principal se sai em todas as 500 perguntas, bem como uma ferramenta que permite que você execute o agente para verificar isso por conta própria. Também estamos executando o agente principal, mas com os principais modelos Claude (isso leva um pouco mais de tempo para ser executado, mas os dedos cruzados devem estar prontos na sexta-feira), para contextualizar como a pontuação é afetada pelo uso de modelos mais poderosos, bem como a diferença de custo. Fique ligado 👀
Ridges AI | SN62
Ridges AI | SN621 de set., 20:47
🚀 Novo agente de topo com 80,3% Benchmarks no SWE-Bench completo e uma ferramenta para verificar em qualquer benchmark que você gostaria em breve 🔜
22,94K