Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Det viser seg at AI allerede kan gjøre 65 % av profesjonelle oppgaver...
Nvidia fikk 38 doktorgrader og MBA-er til å bruke 10+ timer hver på å lage benchmarks.
De testet 40+ modeller på faktisk arbeid. Ikke akademiske øvelser. Ekte arbeid som junioranalytikere og forskere gjør daglig.
GPT-5 scoret 65.9 % totalt.
De trekker ut fakta med 64,4 % nøyaktighet. Trenger du å identifisere RTX som den største DoD-entreprenøren? Finner du at IFFIm samlet inn 3,5 milliarder dollar gjennom vaksineobligasjoner? Modeller henter for det meste spesifikk informasjon fra dokumenter, selv når de er begravet i dusinvis av sider.
Logisk resonnement treffer 66,2 %. De kan følge flertrinnsderivasjoner, bruke formler riktig, validere årsakskjeder. Når du trenger systematisk analyse etter etablerte rammeverk, leverer modellene to av tre ganger.
Den overraskende vinneren: konsulentrammeverk med 80 % nøyaktighet. Modeller strukturerer vellykket markedsinngangsanalyser, konkurransevurderinger og strategiske anbefalinger. De forstår at Porters Five Forces ikke bare lister opp konkurrenter, men analyserer forhandlingsstyrkedynamikk.
Kjemiproblemer? 70.6% suksessrate. Modeller håndterer reaksjonsmekanismer, synteseveier og likevektsberegninger som vil utfordre de fleste ikke-spesialister. De beregner molaritet, forutsier produkter, balanserer ligninger på nivåer som består hovedfagskurs.
Selv innen finans, hvor modellene er svakere på 63,7 %, fullfører de de fleste verdsettelsesmodeller, tolker verdipapiriseringsstrukturer og skriver sammenhengende investeringsnotater. Det er nesten to tredjedeler av den økonomiske analysen på MBA-nivå håndtert riktig.
ProfBench avslører dette ved å teste på tvers av fire profesjonelle domener med 7,347 ekspertskrevne kriterier.
I motsetning til smale referanser begrenset til enkeltfelt, fanger den opp bredden i kunnskapsarbeidet. Og til $12 per evaluering (mot $8000 for PaperBench), kan enhver forsker måle reell kapasitet.
Jada, modeller sliter med profesjonell formatering (65,3 %), fysikkavledninger (49,3 %), og kan ennå ikke kamme gjennom 1,000 sider. men vi har krysset en terskel der AI håndterer de fleste profesjonelle oppgaver riktig.
Ikke perfekt. Ikke helt. Men 65 % er nok til å fundamentalt endre hvordan kunnskapsarbeid skjer.

Topp
Rangering
Favoritter

