Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mamy zbyt wiele wskaźników dotyczących zdolności modeli, a zbyt mało dotyczących pracy agentów. Coraz bardziej liczy się ekonomicznie nie zdolność AI do poprawnego odpowiedzenia na pytanie za pomocą wywołania API, ale raczej zdolność do łączenia narzędzi i rozwiązywania problemów. To jest niedostatecznie mierzone.
Model, który jest słabszy pod względem zdolności, ale potrafi rozpoznać, kiedy się myli i dobrze radzi sobie z wykorzystaniem innych podejść, aby przezwyciężyć swoje słabości, jest znacznie bardziej praktyczny niż model, który zdobywa kilka punktów więcej w Ostatnim Egzaminie Ludzkości. Ale nasze benchmarki tego nie dostrzegają.
Potrzebujemy również lepszego benchmarkingu, który wskaże, DLACZEGO zdolności agentowe się załamują. Na przykład, wizja jest oczywistym słabym punktem modeli, co wyjaśnia wiele niepowodzeń agentów podczas interakcji z rzeczywistym światem. Ale tak samo są "pętle zagłady", w których AI wciąż próbuje tego samego.
Fakt, że prowadzenie fikcyjnej automatycznej maszyny sprzedającej jest głównym punktem odniesienia używanym w ogłoszeniach o nowych modelach AI, pokazuje, gdzie się znajdujemy. To nie jest zły test (naprawdę jest super interesujący), ale nie jest jasne, co on mierzy i potrzebujemy znacznie większej różnorodności zadań.
30,53K
Najlepsze
Ranking
Ulubione

