Outro conjunto de benchmarks de IA ausentes é em torno da fragilidade. Existem modelos que parecem bons no início e se saem bem em benchmarks, mas quebram quando você trabalha com eles. Os modelos generalizam bem? Eles sempre retornam aos mesmos temas ou ideias? Eles entendem a intenção imediata?