Nowa praca @ScienceAdvances proponująca prosty test na stronniczość:
Czy ta sama osoba jest traktowana inaczej, gdy jej rasa jest postrzegana inaczej?
Konkretnie pytamy: czy ten sam kierowca ma większe prawdopodobieństwo, że zostanie przeszukany przez policję, gdy jest postrzegany jako Latynos, a nie jako biały?
1/
Nie rozumiemy w pełni preferencji, które koduje ludzki feedback, więc trenowanie na nim może być ryzykowne.
Proponujemy metodę automatycznego odkrywania tych preferencji!
Identyfikujemy niebezpieczne, sprzeczne i subiektywne preferencje oraz poprawiamy bezpieczeństwo modelu, ewaluację i personalizację.
📣NOWY DOKUMENT! Co zawiera moja ludzka informacja zwrotna? (WIMHF) 🔦
Ludzka informacja zwrotna może wywoływać nieoczekiwane/szkodliwe zmiany w LLM, takie jak nadmierna pewność siebie czy pochlebstwo. Jak możemy przewidzieć te zachowania z wyprzedzeniem?
Używając SAEs, WIMHF automatycznie wyodrębnia te sygnały z danych preferencyjnych.
Czy masz wiele modeli do wyboru i mało oznaczonych danych, na podstawie których możesz je ocenić? Sprawdź nasz artykuł #neurips2025, który przedstawia metodę szacowania wydajności modeli bardziej dokładnie niż wcześniejsze metody, wykorzystując zarówno dane oznaczone, jak i nieoznaczone.
Nowy artykuł #NeurIPS2025: jak powinniśmy oceniać modele uczenia maszynowego bez dużego, oznaczonego zbioru danych? Wprowadzamy Semi-Supervised Model Evaluation (SSME), które wykorzystuje dane oznaczone i nieoznaczone do oszacowania wydajności! Odkrywamy, że SSME jest znacznie dokładniejsze niż standardowe metody.