Мы не полностью понимаем предпочтения, которые закодированы в человеческой обратной связи, поэтому обучение на них может быть рискованным. Мы предлагаем метод для автоматического обнаружения этих предпочтений! Мы выявляем небезопасные, противоречивые и субъективные предпочтения и улучшаем безопасность модели, оценку и персонализацию.