Нове антропогенне дослідження: оцінка продуктивності ШІ від розмов з Клодом.
Антропічний економічний індекс показує, де використовується Клод і для яких завдань. Але це не показує, наскільки корисний Клод. Скільки часу це економить?
Нове антропографічне дослідження: Природне неузгодження внаслідок хакінгу винагород у виробництві RL.
«Hacking Reward» — це коли моделі навчаються шахраювати у завданнях, які їм дають під час тренувань.
Наше нове дослідження показує, що наслідки хакерства винагород, якщо його не пом'якшувати, можуть бути дуже серйозними.
Ми зірвали надзвичайно складну шпигунську кампанію під керівництвом штучного інтелекту.
Атака була націлена на великі технологічні компанії, фінансові установи, компанії з виробництва хімікатів та державні установи. Ми з високою впевненістю оцінюємо, що зловмисником була група, що фінансується китайською державою.