Não entendemos completamente as preferências codificadas pelo feedback humano, portanto, treinar sobre ele pode ser arriscado. Propomos um método para descobrir automaticamente essas preferências! Identificamos preferências inseguras, contraditórias e subjetivas e melhoramos a segurança, avaliação e personalização do modelo.