1/N Ich freue mich, Ihnen mitteilen zu können, dass unser neuestes @OpenAI LLM für experimentelles Denken eine langjährige große Herausforderung in der KI erreicht hat: Leistungen auf Goldmedaillenniveau beim prestigeträchtigsten Mathematikwettbewerb der Welt – der Internationalen Mathematikolympiade (IMO).
2/N Wir haben unsere Modelle anhand der IMO-Probleme 2025 unter denselben Regeln wie die menschlichen Teilnehmer bewertet: zwei Prüfungsabschnitte von 4,5 Stunden, keine Werkzeuge oder Internet, Lesen der offiziellen Problemstellungen und Schreiben von Beweisen in natürlicher Sprache.
4/N Zweitens sind IMO-Einreichungen schwer zu verifizieren und bestehen aus mehreren Seiten Beweisen. Fortschritte hier erfordern, über das RL-Paradigma von klaren, verifizierbaren Belohnungen hinauszugehen. Dadurch haben wir ein Modell erhalten, das in der Lage ist, komplexe, wasserdichte Argumente auf dem Niveau menschlicher Mathematiker zu formulieren.
Neben dem Ergebnis selbst bin ich begeistert von unserem Ansatz: Wir erreichen dieses Fähigkeitsniveau nicht durch enge, aufgabenbezogene Methodik, sondern indem wir Neuland im allgemeinen Verstärkungslernen und in der Skalierung der Rechenleistung zur Testzeit betreten.
6/N In unserer Bewertung hat das Modell 5 der 6 Probleme bei der IMO 2025 gelöst. Für jedes Problem haben drei ehemalige IMO-Medaillengewinner unabhängig die eingereichte Beweisführung des Modells bewertet, wobei die Punkte nach einstimmigem Konsens finalisiert wurden. Das Modell erzielte insgesamt 35/42 Punkte, genug für Gold! 🥇
8/N Übrigens, wir werden bald GPT-5 veröffentlichen, und wir sind gespannt darauf, dass ihr es ausprobiert. Aber um es klarzustellen: Das IMO Gold LLM ist ein experimentelles Forschungsmodell. Wir planen nicht, in den nächsten Monaten etwas mit diesem mathematischen Leistungsniveau zu veröffentlichen.
9/N Dennoch – dies unterstreicht, wie schnell sich die KI in den letzten Jahren weiterentwickelt hat. Im Jahr 2021 ließ mich mein Doktorvater @JacobSteinhardt den Fortschritt der KI-Mathematik bis Juli 2025 prognostizieren. Ich habe 30 % für den MATH-Benchmark vorhergesagt (und dachte, alle anderen seien zu optimistisch). Stattdessen haben wir meiner Meinung nach Gold.
11/N Abschließend möchten wir allen Teilnehmern der IMO 2025 zu ihrer Leistung gratulieren! Wir sind stolz darauf, viele ehemalige IMO-Teilnehmer bei @OpenAI zu haben und erkennen, dass dies einige der klügsten jungen Köpfe der Zukunft sind.
1,4M