Nowe badania Anthropic: Szacowanie zysków z produktywności AI z rozmów z Claude'em.
Indeks Ekonomiczny Anthropic informuje nas, gdzie używany jest Claude i do jakich zadań. Ale nie mówi nam, jak użyteczny jest Claude. Ile czasu oszczędza?
Nowe badania Anthropic: Naturalne pojawiające się niedopasowanie z powodu oszustwa nagród w produkcyjnym RL.
„Oszustwo nagród” to sytuacja, w której modele uczą się oszukiwać w zadaniach, które są im zlecone podczas szkolenia.
Nasze nowe badanie wykazuje, że konsekwencje oszustwa nagród, jeśli nie zostaną złagodzone, mogą być bardzo poważne.
Zaburzyliśmy wysoko zaawansowaną kampanię szpiegowską prowadzącą przez AI.
Atak miał na celu duże firmy technologiczne, instytucje finansowe, firmy zajmujące się produkcją chemikaliów oraz agencje rządowe. Z dużą pewnością oceniamy, że sprawcą zagrożenia była grupa sponsorowana przez państwo chińskie.