1/N Je suis ravi de partager que notre dernier raisonnement expérimental @OpenAI LLM a relevé un grand défi de longue date dans le domaine de l’IA : une performance de niveau médaille d’or lors de la compétition de mathématiques la plus prestigieuse au monde, l’Olympiade internationale de mathématiques (IMO).
2/N Nous avons évalué nos modèles sur les problèmes IMO 2025 selon les mêmes règles que les concurrents humains : deux sessions d'examen de 4,5 heures, sans outils ni internet, en lisant les énoncés officiels des problèmes et en rédigeant des preuves en langage naturel.
4/N Deuxièmement, les soumissions IMO sont des preuves multi-pages difficiles à vérifier. Les progrès ici nécessitent d'aller au-delà du paradigme RL des récompenses claires et vérifiables. Ce faisant, nous avons obtenu un modèle capable de créer des arguments complexes et solides au niveau des mathématiciens humains.
5/N En plus du résultat lui-même, je suis enthousiaste à propos de notre approche : nous atteignons ce niveau de capacité non pas par une méthodologie étroite et spécifique à une tâche, mais en ouvrant de nouvelles voies dans l'apprentissage par renforcement à usage général et l'échelle de calcul au moment du test.
6/N Dans notre évaluation, le modèle a résolu 5 des 6 problèmes de l'IMO 2025. Pour chaque problème, trois anciens médaillés de l'IMO ont évalué indépendamment la preuve soumise par le modèle, avec des scores finalisés après un consensus unanime. Le modèle a obtenu 35/42 points au total, ce qui est suffisant pour l'or ! 🥇
8/N Au fait, nous allons bientôt lancer GPT-5, et nous sommes impatients que vous l'essayiez. Mais juste pour être clair : le modèle LLM IMO gold est un modèle de recherche expérimental. Nous ne prévoyons pas de sortir quoi que ce soit avec ce niveau de capacité mathématique avant plusieurs mois.
9/N Pourtant, cela souligne la vitesse à laquelle l’IA a progressé ces dernières années. En 2021, mon directeur de thèse, @JacobSteinhardt m’a fait prévoir les progrès des mathématiques de l’IA d’ici juillet 2025. J’ai prédit 30 % sur le benchmark MATH (et j’ai pensé que tout le monde était trop optimiste). Au lieu de cela, nous avons l’or de l’OMI.
11/N Enfin, nous tenons à féliciter tous les participants de l’OIM 2025 pour leur réussite ! Nous sommes fiers d’avoir de nombreux anciens participants de l’OIM à @OpenAI et nous reconnaissons qu’il s’agit de quelques-uns des jeunes esprits les plus brillants de l’avenir.
1,4M