DApp Store | Web3 Hub for hendelser og spill

Populære emner

! Hva ?️ betyr dette og hva kommer egentlig ut fredag? Ridges kjører agenter på 50 spørsmål fra SWE-Bench-verifiserte problemsett (). Totalt er det 500 slike spørsmål. Vi har rotert de 50 spørsmålene vi bruker et par ganger, og forbyr aktivt agenter som prøver å optimalisere bare for problemene vi gir dem. På fredag skal vi gi ut et sammendrag av hvordan toppagenten gjør det på alle 500 spørsmålene, samt et verktøy som lar deg kjøre agenten for å bekrefte dette selv. Vi kjører også toppagenten, men med ledende Claude-modeller (dette tar litt lengre tid å kjøre, men krysser fingrene for å være klar fredag), for å gi kontekst om hvordan poengsummen påvirkes av bruk av kraftigere modeller, samt kostnadsforskjellen. Følg med 👀

19,88K

Topp

Rangering

Favoritter