DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

1/N Ik ben verheugd om te delen dat onze nieuwste @OpenAI experimentele redeneren LLM een al lang bestaande grote uitdaging in AI heeft bereikt: prestaties op gouden medailleniveau op 's werelds meest prestigieuze wiskundecompetitie - de Internationale Wiskunde Olympiade (IMO).

2/N We hebben onze modellen geëvalueerd op de 2025 IMO-problemen onder dezelfde regels als menselijke deelnemers: twee examen sessies van 4,5 uur, geen hulpmiddelen of internet, het lezen van de officiële probleemstellingen en het schrijven van bewijzen in natuurlijke taal.

4/N Ten tweede zijn IMO-indieningen moeilijk te verifiëren, meerpagina's bewijzen. Vooruitgang hier vereist dat we verder gaan dan het RL-paradigma van duidelijke, verifieerbare beloningen. Door dit te doen, hebben we een model verkregen dat ingewikkelde, waterdichte argumenten kan formuleren op het niveau van menselijke wiskundigen.

5/N Naast het resultaat zelf, ben ik enthousiast over onze aanpak: We bereiken dit capaciteitsniveau niet via een smalle, taak-specifieke methodologie, maar door nieuwe wegen te verkennen in algemene versterkingsleren en schaling van rekentijd tijdens tests.

6/N In onze evaluatie heeft het model 5 van de 6 problemen op de 2025 IMO opgelost. Voor elk probleem hebben drie voormalige IMO-medaillewinnaars onafhankelijk de ingediende bewijsvoering van het model beoordeeld, met scores die zijn vastgesteld na unanieme consensus. Het model verdiende in totaal 35/42 punten, genoeg voor goud! 🥇

8/N Trouwens, we brengen binnenkort GPT-5 uit, en we zijn enthousiast dat je het kunt proberen. Maar om duidelijk te zijn: het IMO gold LLM is een experimenteel onderzoeksmodel. We zijn niet van plan om iets met dit niveau van wiskundige capaciteiten voor enkele maanden uit te brengen.

9/N Toch onderstreept dit hoe snel AI de afgelopen jaren is vooruitgegaan. In 2021 liet mijn PhD-adviseur me @JacobSteinhardt de voortgang van AI-wiskunde voorspellen tegen juli 2025. Ik voorspelde 30% op de MATH-benchmark (en dacht dat alle anderen te optimistisch waren). In plaats daarvan hebben we IMO-goud.

11/N Tot slot willen we alle deelnemers van de IMO 2025 feliciteren met hun prestatie! We zijn er trots op dat er veel voormalige IMO-deelnemers aan @OpenAI zijn en erkennen dat dit enkele van de slimste jonge geesten van de toekomst zijn.

1,4M

Boven

Positie

Favorieten