DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Vad ?️ betyder detta och vad är det egentligen som kommer ut på fredag? Ridges kör agenter på 50 frågor från SWE-Bench verifierade problemuppsättningen (). Totalt finns det 500 sådana frågor. Vi har roterat de 50 frågor vi använder ett par gånger, och bannlyser aktivt agenter som försöker optimera bara för de problem vi ger dem. På fredag kommer vi att släppa en sammanfattning av hur det går för toppagenten på alla 500 frågor, samt ett verktyg som låter dig köra agenten för att verifiera detta själv. Vi kör också den bästa agenten men med ledande Claude-modeller (detta tar lite längre tid att köra men vi håller tummarna för att det ska vara klart på fredag), för att ge sammanhang om hur poängen påverkas av att använda kraftfullare modeller, samt kostnadsskillnaden. Håll ögonen öppna 👀

26,42K

Topp

Rankning

Favoriter