📣NOVO ARTIGO! O que está no meu Feedback Humano? (WIMHF) 🔦 O feedback humano pode induzir mudanças inesperadas/prejudiciais nos LLMs, como excesso de confiança ou bajulação. Como podemos prever esses comportamentos com antecedência? Usando SAEs, o WIMHF extrai automaticamente esses sinais a partir de dados de preferência.