Artigo de New @ScienceAdvances propondo um teste simples para viés:
A mesma pessoa é tratada de forma diferente quando sua raça é percebida de forma diferente?
Especificamente, perguntamos: o mesmo motorista é mais provável de ser revistado pela polícia quando é percebido como hispânico em vez de branco?
1/
Não entendemos completamente as preferências codificadas pelo feedback humano, portanto, treinar sobre ele pode ser arriscado.
Propomos um método para descobrir automaticamente essas preferências!
Identificamos preferências inseguras, contraditórias e subjetivas e melhoramos a segurança, avaliação e personalização do modelo.
📣NOVO PAPEL! O que há no meu feedback humano? (WIMHF) 🔦
O feedback humano pode induzir mudanças inesperadas/prejudiciais aos LLMs, como excesso de confiança ou bajulação. Como podemos prever esses comportamentos com antecedência?
Usando SAEs, o WIMHF extrai automaticamente esses sinais dos dados de preferência.
Você tem muitos modelos para escolher e poucos dados rotulados para avaliá-los? Confira nosso artigo #neurips2025, que apresenta um método para estimar o desempenho do modelo com mais precisão do que os métodos anteriores usando dados rotulados + não rotulados.
Novo artigo #NeurIPS2025: como devemos avaliar modelos de aprendizado de máquina sem um grande conjunto de dados rotulado? Apresentamos a Avaliação de Modelo Semi-Supervisionada (SSME), que usa dados rotulados e não rotulados para estimar o desempenho! Descobrimos que o SSME é muito mais preciso do que os métodos padrão.