Makalah @ScienceAdvances baru yang mengusulkan tes sederhana untuk bias:
Apakah orang yang sama diperlakukan berbeda ketika ras mereka dipersepsikan berbeda?
Secara khusus, kami bertanya: apakah pengemudi yang sama lebih mungkin digeledah oleh polisi ketika mereka dianggap sebagai Hispanik daripada kulit putih?
1/
Kami tidak sepenuhnya memahami preferensi yang dikodekan umpan balik manusia, jadi pelatihan tentangnya bisa berisiko.
Kami mengusulkan metode untuk menemukan preferensi ini secara otomatis!
Kami mengidentifikasi preferensi yang tidak aman, kontradiktif, dan subjektif, serta meningkatkan keamanan, evaluasi, dan personalisasi model.
📣KERTAS BARU! Apa yang ada di dalam umpan balik manusia saya? (WIMHF) 🔦
Umpan balik manusia dapat menginduksi perubahan yang tidak terduga/berbahaya pada LLM, seperti kepercayaan diri yang berlebihan atau sykofasi. Bagaimana kita bisa meramalkan perilaku ini sebelumnya?
Dengan menggunakan SAE, WIMHF secara otomatis mengekstrak sinyal ini dari data preferensi.
Apakah Anda memiliki banyak model untuk dipilih dan sedikit data berlabel untuk mengevaluasinya? Lihat makalah #neurips2025 kami, yang menyajikan metode untuk memperkirakan kinerja model lebih akurat daripada metode sebelumnya menggunakan data berlabel + tidak berlabel.
Makalah #NeurIPS2025 baru: bagaimana kita harus mengevaluasi model pembelajaran mesin tanpa kumpulan data berlabel yang besar? Kami memperkenalkan Semi-Supervised Model Evaluation (SSME), yang menggunakan data berlabel dan tidak berlabel untuk memperkirakan kinerja! Kami menemukan SSME jauh lebih akurat daripada metode standar.