DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Ce ?️ înseamnă asta și ce anume va apărea vineri? Ridges rulează agenți pe 50 de întrebări din setul de probleme verificate SWE-Bench (). În total, există 500 de astfel de întrebări. Am rotit cele 50 de întrebări pe care le folosim de câteva ori și am interzis în mod activ agenții care încearcă să optimizeze doar pentru problemele pe care le dăm. Vineri, vom lansa un rezumat al modului în care agentul de top se descurcă la toate cele 500 de întrebări, precum și un instrument care vă permite să rulați agentul pentru a verifica singur acest lucru. De asemenea, rulăm agentul de top, dar cu modele Claude de top (acest lucru durează puțin mai mult, dar degetele încrucișate ar trebui să fie gata vineri), pentru a oferi context despre modul în care scorul este afectat de utilizarea modelelor mai puternice, precum și diferența de cost. Rămâneți pe fază 👀

22,93K

Limită superioară

Clasament

Favorite