Ny @ScienceAdvances artikel som föreslår ett enkelt test för partiskhet:
Behandlas samma person olika när deras ras uppfattas olika?
Specifikt frågar vi: är samma förare mer benägen att genomsökas av polisen när de uppfattas som latinamerikansk snarare än vit?
1/
Vi förstår inte helt de preferenser som mänsklig feedback kodar, så det kan vara riskabelt att träna på det.
Vi föreslår en metod för att automatiskt upptäcka dessa preferenser!
Vi identifierar osäkra, motsägelsefulla och subjektiva preferenser och förbättrar modellsäkerheten, utvärderingen och personaliseringen.
📣NYTT PAPPER! Vad finns i min mänskliga feedback? (WIMHF) 🔦
Mänsklig feedback kan framkalla oväntade/skadliga förändringar av LLM:er, som övertro eller smicker. Hur kan vi förutse dessa beteenden i förväg?
Med hjälp av SAE:er extraherar WIMHF automatiskt dessa signaler från preferensdata.
Har du många modeller att välja mellan och lite märkta data att utvärdera dem med? Kolla in vårt #neurips2025-dokument, som presenterar en metod för att uppskatta modellens prestanda mer exakt än tidigare metoder med hjälp av både märkta + omärkta data.
Nytt #NeurIPS2025 paper: hur ska vi utvärdera maskininlärningsmodeller utan en stor, märkt datamängd? Vi introducerar Semi-Supervised Model Evaluation (SSME), som använder märkta och omärkta data för att uppskatta prestanda! Vi finner att SSME är mycket mer exakt än standardmetoder.