Kolejny zestaw brakujących wskaźników AI dotyczy kruchości. Są modele, które na pierwszy rzut oka wydają się dobre i dobrze radzą sobie w testach, ale zawodzą, gdy zaczynasz z nimi pracować. Czy modele dobrze generalizują? Czy zawsze wracają do tych samych tematów lub pomysłów? Czy rozumieją intencję zapytania?