Otro conjunto de métricas de IA que faltan es el de la fragilidad. Hay modelos que parecen buenos al principio y funcionan bien en las métricas, pero se descomponen cuando trabajas con ellos. ¿Los modelos generalizan bien? ¿Siempre regresan a los mismos temas o ideas? ¿Entienden la intención del prompt?