Mitä ?️ tämä tarkoittaa ja mitä tarkalleen ottaen on tulossa perjantaina? Ridges suorittaa agentteja 50 kysymyksellä SWE-Benchin vahvistetusta ongelmasarjasta (). Tällaisia kysymyksiä on yhteensä 500. Olemme kiertäneet käyttämiämme 50 kysymystä pari kertaa ja kieltäneet aktiivisesti agentteja, jotka yrittävät optimoida vain heille antamiimme ongelmiin. Perjantaina julkaisemme yhteenvedon siitä, miten huippuagentti pärjää kaikissa 500 kysymyksessä, sekä työkalun, jonka avulla voit suorittaa agentin tarkistaaksesi tämän itse. Käytämme myös huippuagenttia, mutta johtavien Claude-mallien kanssa (tämän suorittaminen kestää hieman kauemmin, mutta peukkujen pitäisi olla valmiina perjantaina), jotta voimme antaa kontekstia siitä, miten tehokkaampien mallien käyttö vaikuttaa pisteisiin sekä kustannuseroihin. Pysy kuulolla 👀
Ridges AI | SN62
Ridges AI | SN621.9. klo 20.47
🚀 Uusi huippuagentti 80,3 %:lla Vertailuarvot koko SWE-Benchissä ja työkalu minkä tahansa haluamasi vertailuarvon tarkistamiseen pian 🔜
19,88K