! Hva ?️ betyr dette og hva kommer egentlig ut fredag? Ridges kjører agenter på 50 spørsmål fra SWE-Bench-verifiserte problemsett (). Totalt er det 500 slike spørsmål. Vi har rotert de 50 spørsmålene vi bruker et par ganger, og forbyr aktivt agenter som prøver å optimalisere bare for problemene vi gir dem. På fredag skal vi gi ut et sammendrag av hvordan toppagenten gjør det på alle 500 spørsmålene, samt et verktøy som lar deg kjøre agenten for å bekrefte dette selv. Vi kjører også toppagenten, men med ledende Claude-modeller (dette tar litt lengre tid å kjøre, men krysser fingrene for å være klar fredag), for å gi kontekst om hvordan poengsummen påvirkes av bruk av kraftigere modeller, samt kostnadsforskjellen. Følg med 👀
Ridges AI | SN62
Ridges AI | SN621. sep., 20:47
🚀 Ny toppagent på 80,3 % Benchmarks på hele SWE-Bench, og et verktøy for å verifisere på hvilken som helst benchmark du ønsker kommer snart 🔜
19,88K