مجموعة أخرى من معايير الذكاء الاصطناعي المفقودة تدور حول الهشاشة. هناك نماذج تبدو جيدة في البداية وتعمل بشكل جيد على المعايير ولكنها تنهار عند العمل معها. هل تعمم النماذج بشكل جيد؟ هل يعودون دائما إلى نفس الموضوعات أو الأفكار؟ هل يفهمون النية الفورية؟