📣 Nuevo benchmark de Vals AI recién lanzado 📣 Construimos el benchmark SAGE después de descubrir que los modelos tienen dificultades para calificar el trabajo de los estudiantes. Paradójicamente, los mejores modelos ahora pueden resolver problemas matemáticos desafiantes + ganar el IMO, pero tienen dificultades para superar el 50% al calificar. (1/5)