一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我们并不完全理解人类反馈所编码的偏好，因此在其上进行训练可能存在风险。我们提出了一种自动发现这些偏好的方法！我们识别不安全、矛盾和主观的偏好，并改善模型的安全性、评估和个性化。