Nueva investigación antrópica: Estimación de las ganancias de productividad de la IA a partir de conversaciones con Claude.
El Índice Económico Antrópico nos indica dónde se utiliza Claude y para qué tareas. Pero no nos dice lo útil que es Claude. ¿Cuánto tiempo ahorra?
Nueva investigación antrópica: Desalineación natural emergente por el hackeo de recompensas en la vida real de producción.
El "hacking de recompensas" es cuando los modelos aprenden a hacer trampas en las tareas que les asignan durante el entrenamiento.
Nuestro nuevo estudio concluye que las consecuencias del hacking de recompensas, si no se mitigan, pueden ser muy graves.
Interrumpimos una campaña de espionaje altamente sofisticada dirigida por IA.
El ataque se dirigió a grandes empresas tecnológicas, instituciones financieras, empresas de fabricación de productos químicos y agencias gubernamentales. Evaluamos con gran confianza que el actor de amenazas era un grupo patrocinado por el estado chino.