Nuevo artículo de @ScienceAdvances proponiendo una prueba sencilla para detectar sesgos:
¿Se trata a la misma persona de forma diferente cuando su raza es percibida de forma distinta?
Específicamente, preguntamos: ¿es más probable que el mismo conductor sea registrado por la policía cuando se le percibe como hispano en lugar de blanco?
1/
No entendemos completamente las preferencias que codifica la retroalimentación humana, por lo que la capacitación puede ser arriesgada.
¡Proponemos un método para descubrir automáticamente estas preferencias!
Identificamos preferencias inseguras, contradictorias y subjetivas, y mejoramos la seguridad, la evaluación y la personalización del modelo.
📣¡PAPEL NUEVO! ¿Qué hay en mi retroalimentación humana? (WIMHF) 🔦
La retroalimentación humana puede inducir cambios inesperados / dañinos en los LLM, como exceso de confianza o adulación. ¿Cómo podemos pronosticar estos comportamientos con anticipación?
Usando SAE, WIMHF extrae automáticamente estas señales de los datos de preferencia.
¿Tienes muchos modelos para elegir y pocos datos etiquetados con los que evaluarlos? Consulte nuestro artículo de #neurips2025, que presenta un método para estimar el rendimiento del modelo con mayor precisión que los métodos anteriores utilizando datos etiquetados + no etiquetados.
Nuevo artículo de #NeurIPS2025: ¿cómo debemos evaluar los modelos de aprendizaje automático sin un gran conjunto de datos etiquetado? Presentamos la Evaluación de Modelos Semisupervisada (SSME), que utiliza datos etiquetados y no etiquetados para estimar el rendimiento. Encontramos que SSME es mucho más preciso que los métodos estándar.