Нова стаття @ScienceAdvances, яка пропонує простий тест на упередженість:
Чи ставляться до однієї й тієї ж людини інакше, коли її раса сприймається по-різному?
Зокрема, ми запитуємо: чи ймовірніше, що одного й того самого водія обшукають поліція, якщо його сприймають як іспаномовного, а не білого?
1/
Ми не до кінця розуміємо переваги, які кодує людський зворотний зв'язок, тому навчання на ньому може бути ризикованим.
Ми пропонуємо метод автоматичного виявлення цих уподобань!
Ми виявляємо небезпечні, суперечливі та суб'єктивні уподобання, а також покращуємо безпеку моделі, її ефективність та персоналізацію.
📣НОВИЙ ПАПІР! Що міститься в моїх людських відгуках? (ВІМХФ) 🔦
Людський зворотний зв'язок може спричинити несподівані/шкідливі зміни в LLM, такі як надмірна самовпевненість або підлабузництво. Як ми можемо передбачити цю поведінку заздалегідь?
Використовуючи SAE, WIMHF автоматично витягує ці сигнали з даних про переваги.
У вас багато моделей на вибір і мало маркованих даних, за якими їх можна оцінювати? Ознайомтеся з нашим документом #neurips2025, в якому представлено метод більш точної оцінки продуктивності моделі, ніж попередні методи, використовуючи дані з маркуванням + без мітки.
Новий документ #NeurIPS2025: як ми повинні оцінювати моделі машинного навчання без великого маркованого набору даних? Ми впроваджуємо напівконтрольовану оцінку моделі (SSME), яка використовує марковані та немарковані дані для оцінки продуктивності! Ми вважаємо, що SSME набагато точніший, ніж стандартні методи.