Еще один набор отсутствующих эталонов AI касается хрупкости. Есть модели, которые на первый взгляд выглядят хорошо и показывают хорошие результаты на эталонах, но ломаются, когда вы с ними работаете. Модели хорошо обобщают? Они всегда возвращаются к одним и тем же темам или идеям? Они понимают намерение запроса?