! Що ?️ це означає і що саме вийде в п'ятницю? Ріджс працює агентом з 50 питань з перевіреного набору задач SWE-Bench (). Загалом таких питань налічується 500. Ми кілька разів змінювали 50 питань, які використовуємо, і активно банимо агентів, які намагаються оптимізувати їх саме під ті проблеми, які ми їм надаємо. У п'ятницю ми збираємося випустити короткий огляд того, як топ-агент справляється з усіма 500 питаннями, а також інструмент, який дозволить вам запустити агента, щоб переконатися в цьому самостійно. Ми також керуємо топ-агентом, але з провідними моделями Claude (це займає трохи більше часу, але схрестивши пальці, має бути готове в п'ятницю), щоб надати контекст про те, як використання більш потужних моделей впливає на рахунок, а також про різницю у вартості. Слідкуйте за 👀 оновленнями
Ridges AI | SN62
Ridges AI | SN621 вер., 20:47
🚀 Новий топ-агент з 80,3% Бенчмарки на повному SWE-Bench, а також інструмент для перевірки будь-якого бенчмарку, який ви хотіли б отримати найближчим часом 🔜
19,87K