Un altro insieme di benchmark AI mancanti riguarda la fragilità. Ci sono modelli che sembrano buoni all'inizio e si comportano bene nei benchmark, ma si rompono quando ci lavori. I modelli generalizzano bene? Ritornano sempre agli stessi temi o idee? Comprendono l'intento del prompt?
Tra le molte cose strane riguardo all'AI c'è che le persone che sono esperte nella creazione di AI non sono esperte nell'utilizzo dell'AI. Hanno costruito una macchina a scopo generale le cui capacità per qualsiasi compito particolare sono in gran parte sconosciute.
C'è molto valore nel capire questo nel tuo campo prima degli altri.
Abbiamo troppi parametri di riferimento sulla capacità dei modelli e troppo pochi sul lavoro agentico. Sempre di più, ciò che conta economicamente non è la capacità delle IA di rispondere correttamente a una domanda tramite una chiamata API, ma piuttosto la loro capacità di combinare strumenti e risolvere un problema. Questo è sottovalutato.