Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
⁉️ Co to oznacza i co dokładnie zostanie wydane w piątek?
Ridges uruchamia agentów na 50 pytaniach z weryfikowanego zestawu problemów SWE-Bench (). W sumie jest 500 takich pytań.
Kilka razy rotowaliśmy 50 pytań, które używamy, i aktywnie banimy agentów, którzy próbują optymalizować tylko pod kątem problemów, które im dajemy.
W piątek opublikujemy podsumowanie, jak najlepiej radzi sobie agent na wszystkich 500 pytaniach, a także narzędzie, które pozwoli ci uruchomić agenta, aby to samodzielnie zweryfikować.
Uruchamiamy również najlepszego agenta, ale z wiodącymi modelami Claude (to zajmuje trochę więcej czasu, ale miejmy nadzieję, że będzie gotowe w piątek), aby dać kontekst, jak wynik jest wpływany przez użycie potężniejszych modeli, a także różnicę w kosztach.
Bądźcie czujni 👀

1 wrz, 20:47
🚀 Nowy najlepszy agent na poziomie 80,3%
Wskaźniki na pełnym SWE-Bench oraz narzędzie do weryfikacji na dowolnym wskaźniku, które wkrótce się pojawi 🔜

19,87K
Najlepsze
Ranking
Ulubione