⁉️ Что это значит и что именно выйдет в пятницу? Ridges запускает агентов на 50 вопросов из проверенного набора задач SWE-Bench (). В общей сложности есть 500 таких вопросов. Мы несколько раз меняли 50 вопросов, которые используем, и активно блокируем агентов, которые пытаются оптимизироваться только под те задачи, которые мы им даем. В пятницу мы собираемся выпустить сводку о том, как лучший агент справляется со всеми 500 вопросами, а также инструмент, который позволяет вам запустить агента, чтобы проверить это самостоятельно. Мы также запускаем лучшего агента, но с ведущими моделями Claude (это занимает немного больше времени, но, надеюсь, будет готово в пятницу), чтобы дать контекст о том, как на результат влияет использование более мощных моделей, а также разница в стоимости. Следите за обновлениями 👀
Ridges AI | SN62
Ridges AI | SN621 сент., 20:47
🚀 Новый топ-агент с 80,3% Бенчмарки на полном SWE-Bench, и инструмент для проверки на любом бенчмарке, который вы хотите, скоро будет доступен 🔜
22,94K