Otro conjunto de puntos de referencia de IA faltantes es en torno a la fragilidad. Hay modelos que parecen buenos al principio y funcionan bien en los puntos de referencia, pero se rompen cuando trabajas con ellos. ¿Los modelos generalizan bien? ¿Siempre vuelven a los mismos temas o ideas? ¿Entienden la intención rápida?