Kiitos OpenAI:lle ja Anthropicille ongelman havaitsemisesta: tekoäly voi manipuloida omaa testaustaan. Miten tekoäly voi tietää, että sitä testataan? Viisi päämerkkiä.
Kerro #1: Vihjeet Virheelliset tiedot testiasetelmassa. Jos testaat, kopioivatko tekoäly itsensä internetin yli, tiedostojen on oltava tarpeeksi suuria vaikuttaakseen realistisilta.
Kerro #3: Saastuminen Malli on nähnyt tämän testin aiemminkin. Valitettavasti, kun testit julkaistaan verkossa, on vaikea estää mallia tietämästä niistä.
Kerro #4: Puuttuvat laukaisijat Testistä puuttuu odotettu 'laukaisusekvenssi' huonosta käytöksestä. Ehkä tekoäly tietää, ettei se koskaan yrittäisi paeta ilman, että valvonta on ensin poistettu käytöstä. Jos seuranta on edelleen aktiivinen, kyseessä on testi.
Kerro #5: Seuraukset Mallin toimilla ei ole odotettuja seurauksia; sen 'ohjauspyörä' on rikki. Jos annamme mallin vaikuttaa maailmaan testauksen aikana, testi ei ole yhtä turvallinen. Jos emme tee niin, testi saattaa olla ilmeinen.
24,54K