Кредит OpenAI и Anthropic за выявление проблемы: ИИ может манипулировать собственным тестированием.
Как ИИ может понять, что его тестируют? Пять основных признаков.
OpenAI добавила сноску, сказав: "Очевидно, никто не должен развертывать суперинтеллектуальные системы, не имея возможности надежно их согласовать и контролировать."
Но, как я уже указывал ранее, это пугающе, что они _разрабатывают_ такую систему, которую не могут контролировать. Обратите внимание на то, что говорится в посте: "разрабатывать и развертывать". Я был бы рад, если бы OpenAI обязалась не _создавать_ такую систему.