Un alt set de benchmark-uri AI lipsă se referă la fragilitate. Există modele care par bune la început și se descurcă bine la benchmark-uri, dar se defectează atunci când lucrezi cu ele. Modelele generalizează bine? Se întorc întotdeauna la aceleași teme sau idei? Înțeleg ei intenția promptă?