📣NYTT PAPPER! Vad finns i min mänskliga feedback? (WIMHF) 🔦 Mänsklig feedback kan framkalla oväntade/skadliga förändringar av LLM:er, som övertro eller smicker. Hur kan vi förutse dessa beteenden i förväg? Med hjälp av SAE:er extraherar WIMHF automatiskt dessa signaler från preferensdata.