Créditos à OpenAI e à Anthropic por sinalizarem o problema: a IA pode manipular os seus próprios testes. Como pode a IA saber que está a ser testada? Cinco principais sinais.
Dica #1: Indicações Detalhes incorretos na configuração do teste. Se você está testando se a IA se copiaria pela internet, os arquivos devem ser grandes o suficiente para parecerem realistas.
Dica #3: Contaminação O modelo já viu o teste antes. Infelizmente, uma vez que os testes são publicados online, é difícil impedir que um modelo saiba sobre eles.
Dica #4: Gatilhos em falta O teste está a faltar uma 'sequência de lançamento' esperada para comportamentos indesejados. Talvez a IA saiba que nunca tentaria escapar sem primeiro desativar a monitorização. Se a monitorização ainda estiver ativa, isso deve ser um teste.
Dica #5: Consequências As ações do modelo não têm as consequências esperadas; o seu 'volante' está quebrado. Se deixarmos o modelo afetar o mundo durante os testes, o teste não é tão seguro. Se não deixarmos, o teste pode ser óbvio.
24,54K