Een andere set van ontbrekende AI-benchmarks heeft betrekking op broosheid. Er zijn modellen die in eerste instantie goed lijken en goed presteren op benchmarks, maar falen wanneer je met ze werkt. Generaliseren modellen goed? Komen ze altijd terug op dezelfde thema's of ideeën? Begrijpen ze de intentie van de prompt?