Tenemos demasiados puntos de referencia sobre la capacidad de los modelos y muy pocos sobre el trabajo agente. Cada vez más, lo que importa económicamente no es la capacidad de las IA para responder correctamente a una pregunta a través de una llamada a la API, sino su capacidad para combinar herramientas y resolver un problema. Eso está submedido.
Un modelo que es más débil en capacidad, pero que puede darse cuenta cuando está equivocado y es bueno utilizando otros enfoques para superar su debilidad, es de mucha más utilidad práctica que un modelo que puntúa unos pocos puntos más en el Último Examen de la Humanidad. Pero nuestro benchmarking no ve esto.
También necesitamos mejores referencias que indiquen POR QUÉ las habilidades agenticas se descomponen. Por ejemplo, la visión es un punto débil obvio para los modelos que explica muchas de las fallas de los agentes al interactuar con el mundo real. Pero también lo son los "circuitos de fatalidad" donde la IA sigue intentando lo mismo.
El hecho de que operar una máquina expendedora ficticia sea un importante referente utilizado en el anuncio de nuevos modelos de IA muestra en qué punto estamos. No es una mala prueba (es realmente muy interesante), pero no está claro qué mide y necesitamos mucha más diversidad de tareas también.
30,05K