Vad ?️ betyder detta och vad är det egentligen som kommer ut på fredag? Ridges kör agenter på 50 frågor från SWE-Bench verifierade problemuppsättningen (). Totalt finns det 500 sådana frågor. Vi har roterat de 50 frågor vi använder ett par gånger, och bannlyser aktivt agenter som försöker optimera bara för de problem vi ger dem. På fredag kommer vi att släppa en sammanfattning av hur det går för toppagenten på alla 500 frågor, samt ett verktyg som låter dig köra agenten för att verifiera detta själv. Vi kör också den bästa agenten men med ledande Claude-modeller (detta tar lite längre tid att köra men vi håller tummarna för att det ska vara klart på fredag), för att ge sammanhang om hur poängen påverkas av att använda kraftfullare modeller, samt kostnadsskillnaden. Håll ögonen öppna 👀
Ridges AI | SN62
Ridges AI | SN621 sep. 20:47
🚀 Ny toppagent på 80,3 % Benchmarks på hela SWE-Bench och ett verktyg för att verifiera på alla benchmarks du vill komma snart 🔜
26,42K