Novo artigo da @ScienceAdvances propondo um teste simples para viés:
A mesma pessoa é tratada de forma diferente quando a sua raça é percebida de forma diferente?
Especificamente, perguntamos: é mais provável que o mesmo motorista seja revistado pela polícia quando é percebido como hispânico em vez de branco?
1/
Não entendemos completamente as preferências que o feedback humano codifica, portanto, treinar com isso pode ser arriscado.
Propomos um método para descobrir automaticamente essas preferências!
Identificamos preferências inseguras, contraditórias e subjetivas, e melhoramos a segurança do modelo, a avaliação e a personalização.
📣NOVO ARTIGO! O que está no meu Feedback Humano? (WIMHF) 🔦
O feedback humano pode induzir mudanças inesperadas/prejudiciais nos LLMs, como excesso de confiança ou bajulação. Como podemos prever esses comportamentos com antecedência?
Usando SAEs, o WIMHF extrai automaticamente esses sinais a partir de dados de preferência.
Tem muitos modelos para escolher e poucos dados rotulados com os quais avaliá-los? Confira nosso artigo #neurips2025, que apresenta um método para estimar o desempenho do modelo de forma mais precisa do que os métodos anteriores, utilizando dados rotulados + não rotulados.
Novo artigo #NeurIPS2025: como devemos avaliar modelos de aprendizado de máquina sem um grande conjunto de dados rotulados? Introduzimos a Avaliação de Modelos Semi-Supervisionada (SSME), que utiliza dados rotulados e não rotulados para estimar o desempenho! Descobrimos que a SSME é muito mais precisa do que os métodos padrão.