📣 Se acaba de lanzar 📣 el nuevo punto de referencia de IA de Vals
Construimos el punto de referencia SAGE después de descubrir que los modelos tienen dificultades para calificar el trabajo de los estudiantes. Paradójicamente, los mejores modelos ahora pueden resolver problemas matemáticos desafiantes + ganar en mi opinión, pero luchan por superar el 50% al calificar.
(1/5)
Sonnet 4.5 acaba de ser lanzado: ¡ocupa el puesto #1 en nuestros puntos de referencia de finanzas y programación! Tuvimos la oportunidad de probar el nuevo modelo @claudeai antes del lanzamiento y descubrimos que era excepcionalmente capaz, especialmente para aplicaciones agentic.
(1/6)
¡GPT-5 Codex logró un rendimiento impresionante en casi todos los puntos de referencia que evaluamos! Lo más notable es su mejora del 10% en Terminal-Bench con respecto al #1 anterior, GPT-5. ¡Felicitaciones al equipo de @OpenAI por un sólido modelo de codificación!
(1/6)