Det viser seg at AI allerede kan gjøre 65 % av profesjonelle oppgaver... Nvidia fikk 38 doktorgrader og MBA-er til å bruke 10+ timer hver på å lage benchmarks. De testet 40+ modeller på faktisk arbeid. Ikke akademiske øvelser. Ekte arbeid som junioranalytikere og forskere gjør daglig. GPT-5 scoret 65.9 % totalt. De trekker ut fakta med 64,4 % nøyaktighet. Trenger du å identifisere RTX som den største DoD-entreprenøren? Finner du at IFFIm samlet inn 3,5 milliarder dollar gjennom vaksineobligasjoner? Modeller henter for det meste spesifikk informasjon fra dokumenter, selv når de er begravet i dusinvis av sider. Logisk resonnement treffer 66,2 %. De kan følge flertrinnsderivasjoner, bruke formler riktig, validere årsakskjeder. Når du trenger systematisk analyse etter etablerte rammeverk, leverer modellene to av tre ganger. Den overraskende vinneren: konsulentrammeverk med 80 % nøyaktighet. Modeller strukturerer vellykket markedsinngangsanalyser, konkurransevurderinger og strategiske anbefalinger. De forstår at Porters Five Forces ikke bare lister opp konkurrenter, men analyserer forhandlingsstyrkedynamikk. Kjemiproblemer? 70.6% suksessrate. Modeller håndterer reaksjonsmekanismer, synteseveier og likevektsberegninger som vil utfordre de fleste ikke-spesialister. De beregner molaritet, forutsier produkter, balanserer ligninger på nivåer som består hovedfagskurs. Selv innen finans, hvor modellene er svakere på 63,7 %, fullfører de de fleste verdsettelsesmodeller, tolker verdipapiriseringsstrukturer og skriver sammenhengende investeringsnotater. Det er nesten to tredjedeler av den økonomiske analysen på MBA-nivå håndtert riktig. ProfBench avslører dette ved å teste på tvers av fire profesjonelle domener med 7,347 ekspertskrevne kriterier. I motsetning til smale referanser begrenset til enkeltfelt, fanger den opp bredden i kunnskapsarbeidet. Og til $12 per evaluering (mot $8000 for PaperBench), kan enhver forsker måle reell kapasitet. Jada, modeller sliter med profesjonell formatering (65,3 %), fysikkavledninger (49,3 %), og kan ennå ikke kamme gjennom 1,000 sider. men vi har krysset en terskel der AI håndterer de fleste profesjonelle oppgaver riktig. Ikke perfekt. Ikke helt. Men 65 % er nok til å fundamentalt endre hvordan kunnskapsarbeid skjer.