📣 Noul benchmark Vals AI tocmai a fost lansat 📣
Am construit benchmark-ul SAGE după ce am descoperit că modelele se luptă să noteze munca elevilor. În mod paradoxal, cele mai bune modele pot rezolva acum probleme de matematică provocatoare + câștigă IMO, dar se luptă să depășească 50% la notare.
(1/5)
Sonnet 4.5 tocmai a fost lansat – ocupă locul #1 în benchmark-urile noastre financiare și de programare! Am avut șansa de a testa noul model @claudeai înainte de lansare și l-am găsit excepțional de capabil, în special pentru aplicații agentice.
(1/6)
GPT-5 Codex a obținut performanțe impresionante la aproape fiecare benchmark pe care l-am evaluat! Cea mai notabilă este îmbunătățirea cu 10% a Terminal-Bench față de precedentul #1, GPT-5. Felicitări echipei @OpenAI pentru un model de codare puternic!
(1/6)