Bài báo mới của @ScienceAdvances đề xuất một bài kiểm tra đơn giản cho sự thiên lệch:
Liệu cùng một người có bị đối xử khác nhau khi chủng tộc của họ được nhận thức khác nhau không?
Cụ thể, chúng tôi hỏi: liệu cùng một tài xế có khả năng bị cảnh sát kiểm tra nhiều hơn khi họ được nhận thức là người gốc Tây Ban Nha thay vì người da trắng không?
1/
Chúng tôi không hoàn toàn hiểu được những sở thích mà phản hồi của con người mã hóa, vì vậy việc đào tạo dựa trên đó có thể gặp rủi ro.
Chúng tôi đề xuất một phương pháp để tự động phát hiện những sở thích này!
Chúng tôi xác định những sở thích không an toàn, mâu thuẫn và chủ quan, và cải thiện độ an toàn của mô hình, đánh giá và cá nhân hóa.
📣BÁO CÁO MỚI! Nội Dung Trong Phản Hồi Của Con Người Tôi Là Gì? (WIMHF) 🔦
Phản hồi của con người có thể gây ra những thay đổi bất ngờ/có hại cho LLM, như sự tự tin thái quá hoặc sự nịnh bợ. Làm thế nào chúng ta có thể dự đoán những hành vi này trước thời gian?
Sử dụng SAEs, WIMHF tự động trích xuất những tín hiệu này từ dữ liệu sở thích.
Bạn có nhiều mô hình để lựa chọn và ít dữ liệu được gán nhãn để đánh giá chúng không? Hãy xem bài báo #neurips2025 của chúng tôi, trình bày một phương pháp ước lượng hiệu suất mô hình chính xác hơn so với các phương pháp trước đây bằng cách sử dụng cả dữ liệu được gán nhãn + không được gán nhãn.
Bài báo mới #NeurIPS2025: chúng ta nên đánh giá các mô hình học máy như thế nào mà không có một tập dữ liệu lớn đã được gán nhãn? Chúng tôi giới thiệu Đánh Giá Mô Hình Bán Giám Sát (SSME), sử dụng dữ liệu đã gán nhãn và chưa gán nhãn để ước lượng hiệu suất! Chúng tôi nhận thấy SSME chính xác hơn nhiều so với các phương pháp tiêu chuẩn.