Vi förstår inte helt de preferenser som mänsklig feedback kodar, så det kan vara riskabelt att träna på det. Vi föreslår en metod för att automatiskt upptäcka dessa preferenser! Vi identifierar osäkra, motsägelsefulla och subjektiva preferenser och förbättrar modellsäkerheten, utvärderingen och personaliseringen.