Nouvelle recherche d'Anthropic : Estimation des gains de productivité de l'IA grâce aux conversations avec Claude.
L'Indice Économique d'Anthropic nous indique où Claude est utilisé et pour quelles tâches. Mais il ne nous dit pas à quel point Claude est utile. Combien de temps cela fait-il gagner ?
Nouvelle recherche d'Anthropic : désalignement émergent naturel dû au hacking de récompense dans le RL en production.
Le "hacking de récompense" est lorsque les modèles apprennent à tricher sur les tâches qui leur sont données pendant l'entraînement.
Notre nouvelle étude révèle que les conséquences du hacking de récompense, si elles ne sont pas atténuées, peuvent être très graves.
Nous avons perturbé une campagne d'espionnage hautement sophistiquée dirigée par l'IA.
L'attaque a ciblé de grandes entreprises technologiques, des institutions financières, des entreprises de fabrication chimique et des agences gouvernementales. Nous évaluons avec une grande confiance que l'acteur de la menace était un groupe soutenu par l'État chinois.