📣 Nya Vals AI benchmark har precis släppts 📣
Vi byggde SAGE-riktmärket efter att ha upptäckt att modeller har svårt att betygsätta elevernas arbete. Paradoxalt nog kan de bästa modellerna nu lösa utmanande matematiska problem + vinna IMO men kämpar för att bryta 50% vid betygsättning.
(1/5)
Sonnet 4.5 har precis släppts - det tar # 1 plats på våra finans och programmering riktmärken! Vi fick chansen att testa den nya @claudeai-modellen före lanseringen och fann att den var exceptionellt kapabel, särskilt för agentapplikationer.
(1/6)
GPT-5 Codex uppnådde imponerande prestanda i nästan alla riktmärken som vi utvärderade! Mest anmärkningsvärt är dess 10-procentiga förbättring av Terminal-Bench jämfört med den tidigare #1, GPT-5. Grattis till @OpenAI-teamet för en stark kodningsmodell!
(1/6)