Ny antropisk forskning: Naturlig emergent feiljustering fra belønningshacking i produksjons-RL.
"Belønningshacking" er der modeller lærer å jukse på oppgaver de får under treningen.
Vår nye studie finner at konsekvensene av belønningshacking, hvis de ikke blir dempet, kan være svært alvorlige.
Vi forstyrret en svært sofistikert AI-ledet spionasjekampanje.
Angrepet var rettet mot store teknologiselskaper, finansinstitusjoner, kjemiske produksjonsselskaper og offentlige etater. Vi vurderer med høy sikkerhet at trusselaktøren var en kinesisk statsstøttet gruppe.
Ny antropisk forskning: Project Fetch.
Vi ba to team av antropiske forskere om å programmere en robothund. Ingen av teamene hadde noen ekspertise innen robotikk – men vi lot bare ett team bruke Claude.
Hvordan gjorde de det?