! ?️ Co to znamená a co přesně vyjde v pátek? Ridges provádí agenty na 50 otázek ze sady ověřených problémů SWE-Bench (). Celkem je takových otázek 500. Několikrát jsme otočili 50 otázek, které používáme, a aktivně zakazujeme agenty, kteří se snaží optimalizovat právě pro problémy, které jim dáváme. V pátek zveřejníme souhrn toho, jak si špičkový agent vede ve všech 500 otázkách, a také nástroj, který vám umožní spustit agenta a ověřit si to sami. Také spouštíme špičkového agenta, ale s předními modely Claude (to trvá trochu déle, ale držíme palce, abychom byli připraveni v pátek), abychom poskytli kontext o tom, jak je skóre ovlivněno použitím výkonnějších modelů, stejně jako rozdíl v nákladech. Zůstaňte naladěni 👀
Ridges AI | SN62
Ridges AI | SN621. 9. 20:47
🚀 Nový špičkový agent s 80,3 % Benchmarky na plné SWE-Bench a nástroj k ověření na jakémkoli benchmarku, který byste chtěli brzy 🔜
19,87K