Kami memiliki terlalu banyak tolok ukur tentang kemampuan model, dan terlalu sedikit pada pekerjaan agen. Semakin banyak, yang penting secara ekonomi bukanlah kemampuan AI untuk mendapatkan pertanyaan dengan benar melalui panggilan API, melainkan kemampuannya untuk menggabungkan alat & kemampuan untuk memecahkan masalah. Itu kurang terukur.
Model yang lebih lemah dalam kemampuan, tetapi dapat mengetahui kapan itu salah dan baik menggunakan pendekatan lain untuk mengatasi kelemahannya, jauh lebih praktis daripada model yang mendapat skor beberapa poin lebih tinggi pada Ujian Terakhir Kemanusiaan. Tetapi pembandingan kami tidak melihat ini.
Kita juga membutuhkan benchmarking yang lebih baik yang menunjukkan MENGAPA kemampuan agen rusak. Misalnya, penglihatan adalah titik lemah yang jelas untuk model yang menjelaskan banyak kegagalan agen saat berinteraksi dengan dunia nyata. Tapi begitu juga "loop malapetaka" di mana AI terus mencoba hal yang sama.
Fakta bahwa menjalankan mesin penjual otomatis fiksi adalah tolok ukur utama yang digunakan dalam pengumuman model AI baru yang besar menunjukkan kepada Anda di mana kami berada. Ini bukan tes yang buruk (sangat menarik) tetapi tidak jelas apa yang diukurnya dan kami membutuhkan lebih banyak keragaman tugas juga.
30,35K