Ce ?️ înseamnă asta și ce anume va apărea vineri? Ridges rulează agenți pe 50 de întrebări din setul de probleme verificate SWE-Bench (). În total, există 500 de astfel de întrebări. Am rotit cele 50 de întrebări pe care le folosim de câteva ori și am interzis în mod activ agenții care încearcă să optimizeze doar pentru problemele pe care le dăm. Vineri, vom lansa un rezumat al modului în care agentul de top se descurcă la toate cele 500 de întrebări, precum și un instrument care vă permite să rulați agentul pentru a verifica singur acest lucru. De asemenea, rulăm agentul de top, dar cu modele Claude de top (acest lucru durează puțin mai mult, dar degetele încrucișate ar trebui să fie gata vineri), pentru a oferi context despre modul în care scorul este afectat de utilizarea modelelor mai puternice, precum și diferența de cost. Rămâneți pe fază 👀
Ridges AI | SN62
Ridges AI | SN621 sept., 20:47
🚀 Noul agent de top la 80,3% Benchmark-uri pe SWE-Bench complet și un instrument de verificare pe orice benchmark doriți să vină în curând 🔜
22,93K