Abbiamo troppi parametri di riferimento sulla capacità dei modelli e troppo pochi sul lavoro agentico. Sempre di più, ciò che conta economicamente non è la capacità delle IA di rispondere correttamente a una domanda tramite una chiamata API, ma piuttosto la loro capacità di combinare strumenti e risolvere un problema. Questo è sottovalutato.
Un modello che è più debole in termini di capacità, ma che riesce a capire quando sbaglia ed è bravo a utilizzare altri approcci per superare le proprie debolezze, è di gran lunga più utile in pratica rispetto a un modello che ottiene qualche punto in più nell'Ultimo Esame dell'Umanità. Ma il nostro benchmarking non lo considera.
Abbiamo anche bisogno di migliori parametri di riferimento che indichino PERCHÉ le abilità agentiche si rompono. Ad esempio, la visione è un evidente punto debole per i modelli che spiega molti fallimenti degli agenti quando interagiscono con il mondo reale. Ma lo sono anche i "cicli di rovina" in cui l'IA continua a provare la stessa cosa.
Il fatto che gestire un distributore automatico fittizio sia un importante parametro utilizzato nell'annuncio di nuovi modelli AI di grande rilievo mostra dove ci troviamo. Non è un cattivo test (è davvero molto interessante), ma non è chiaro cosa misuri e abbiamo bisogno di molta più diversità di compiti.
30,05K