Ny @ScienceAdvances artikkel som foreslår en enkel test for skjevhet:
Blir samme person behandlet annerledes når rasen deres oppfattes forskjellig?
Spesifikt spør vi: er det mer sannsynlig at samme sjåfør blir ransaket av politiet når de oppfattes som latinamerikansk i stedet for hvit?
1/
Vi forstår ikke helt preferansene menneskelig tilbakemelding koder, så det kan være risikabelt å trene på det.
Vi foreslår en metode for automatisk å oppdage disse preferansene!
Vi identifiserer utrygge, motstridende og subjektive preferanser, og forbedrer modellsikkerhet, evaluering og personalisering.
📣NYTT PAPIR! Hva er i min menneskelige tilbakemelding? (WIMHF) 🔦
Menneskelig tilbakemelding kan indusere uventede/skadelige endringer i LLM-er, som overdreven selvtillit eller sykofant. Hvordan kan vi forutsi denne atferden på forhånd?
Ved hjelp av SAE-er trekker WIMHF automatisk ut disse signalene fra preferansedata.
Har du mange modeller å velge mellom og lite merkede data å evaluere dem med? Sjekk ut vår #neurips2025 artikkel, som presenterer en metode for å estimere modellytelse mer nøyaktig enn tidligere metoder ved å bruke både merkede + umerkede data.
Ny #NeurIPS2025 artikkel: hvordan bør vi evaluere maskinlæringsmodeller uten et stort, merket datasett? Vi introduserer Semi-Supervised Model Evaluation (SSME), som bruker merkede og umerkede data for å estimere ytelse! Vi finner at SSME er langt mer nøyaktig enn standardmetoder.