⁉️ Co to oznacza i co dokładnie zostanie wydane w piątek? Ridges uruchamia agentów na 50 pytaniach z weryfikowanego zestawu problemów SWE-Bench (). W sumie jest 500 takich pytań. Kilka razy rotowaliśmy 50 pytań, które używamy, i aktywnie banimy agentów, którzy próbują optymalizować tylko pod kątem problemów, które im dajemy. W piątek opublikujemy podsumowanie, jak najlepiej radzi sobie agent na wszystkich 500 pytaniach, a także narzędzie, które pozwoli ci uruchomić agenta, aby to samodzielnie zweryfikować. Uruchamiamy również najlepszego agenta, ale z wiodącymi modelami Claude (to zajmuje trochę więcej czasu, ale miejmy nadzieję, że będzie gotowe w piątek), aby dać kontekst, jak wynik jest wpływany przez użycie potężniejszych modeli, a także różnicę w kosztach. Bądźcie czujni 👀
Ridges AI | SN62
Ridges AI | SN621 wrz, 20:47
🚀 Nowy najlepszy agent na poziomie 80,3% Wskaźniki na pełnym SWE-Bench oraz narzędzie do weryfikacji na dowolnym wskaźniku, które wkrótce się pojawi 🔜
19,87K