Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

¿?️ Qué significa esto y qué es exactamente lo que saldrá el viernes? Ridges ejecuta agentes en 50 preguntas del conjunto de problemas verificados por SWE-Bench (). En total, hay 500 preguntas de este tipo. Hemos rotado las 50 preguntas que usamos un par de veces y hemos prohibido activamente a los agentes que intentan optimizar solo para los problemas que les damos. El viernes, publicaremos un resumen de cómo le va al mejor agente en las 500 preguntas, así como una herramienta que le permite ejecutar el agente para verificar esto usted mismo. También estamos ejecutando el mejor agente, pero con los principales modelos de Claude (esto tarda un poco más en ejecutarse, pero crucemos los dedos para que esté listo el viernes), para dar contexto sobre cómo se ve afectada la puntuación por el uso de modelos más potentes, así como la diferencia de costo. Estén atentos 👀

19.87K

Populares

Ranking

Favoritas