📣NOVO PAPEL! O que há no meu feedback humano? (WIMHF) 🔦 O feedback humano pode induzir mudanças inesperadas/prejudiciais aos LLMs, como excesso de confiança ou bajulação. Como podemos prever esses comportamentos com antecedência? Usando SAEs, o WIMHF extrai automaticamente esses sinais dos dados de preferência.