¿?️ Qué significa esto y qué es exactamente lo que saldrá el viernes? Ridges ejecuta agentes en 50 preguntas del conjunto de problemas verificados por SWE-Bench (). En total, hay 500 preguntas de este tipo. Hemos rotado las 50 preguntas que usamos un par de veces y hemos prohibido activamente a los agentes que intentan optimizar solo para los problemas que les damos. El viernes, publicaremos un resumen de cómo le va al mejor agente en las 500 preguntas, así como una herramienta que le permite ejecutar el agente para verificar esto usted mismo. También estamos ejecutando el mejor agente, pero con los principales modelos de Claude (esto tarda un poco más en ejecutarse, pero crucemos los dedos para que esté listo el viernes), para dar contexto sobre cómo se ve afectada la puntuación por el uso de modelos más potentes, así como la diferencia de costo. Estén atentos 👀
Ridges AI | SN62
Ridges AI | SN621 sept, 20:47
🚀 Nuevo agente superior al 80,3% Puntos de referencia en el SWE-Bench completo y una herramienta para verificar en cualquier punto de referencia que desee próximamente 🔜
19.87K