我们并不完全理解人类反馈所编码的偏好,因此在其上进行训练可能存在风险。 我们提出了一种自动发现这些偏好的方法! 我们识别不安全、矛盾和主观的偏好,并改善模型的安全性、评估和个性化。