En annan uppsättning saknade AI-riktmärken handlar om sprödhet. Det finns modeller som verkar bra till en början och gör bra ifrån sig på benchmarks men som går sönder när du arbetar med dem. Generaliserar modeller bra? Återkommer de alltid till samma teman eller idéer? Förstår de snabba avsikter?