Outro conjunto de benchmarks de IA em falta diz respeito à fragilidade. Existem modelos que parecem bons à primeira vista e têm um bom desempenho em benchmarks, mas falham quando você trabalha com eles. Os modelos generalizam bem? Eles sempre retornam aos mesmos temas ou ideias? Eles entendem a intenção do prompt?