Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

⁉️ Co to oznacza i co dokładnie zostanie wydane w piątek? Ridges uruchamia agentów na 50 pytaniach z weryfikowanego zestawu problemów SWE-Bench (). W sumie jest 500 takich pytań. Kilka razy rotowaliśmy 50 pytań, które używamy, i aktywnie banimy agentów, którzy próbują optymalizować tylko pod kątem problemów, które im dajemy. W piątek opublikujemy podsumowanie, jak najlepiej radzi sobie agent na wszystkich 500 pytaniach, a także narzędzie, które pozwoli ci uruchomić agenta, aby to samodzielnie zweryfikować. Uruchamiamy również najlepszego agenta, ale z wiodącymi modelami Claude (to zajmuje trochę więcej czasu, ale miejmy nadzieję, że będzie gotowe w piątek), aby dać kontekst, jak wynik jest wpływany przez użycie potężniejszych modeli, a także różnicę w kosztach. Bądźcie czujni 👀

19,87K

Najlepsze

Ranking

Ulubione