Ще один набір відсутніх тестів штучного інтелекту пов'язаний із крихкістю. Є моделі, які спочатку здаються хорошими і добре показують себе на бенчмарках, але ламаються, коли ви працюєте з ними. Чи добре моделі узагальнюють? Чи завжди вони повертаються до одних і тих же тем або ідей? Чи розуміють вони швидкі наміри?