Последняя модель искусственного интеллекта Anthropic угрожает инженерам шантажом, чтобы избежать отключения

dailyblitz.de 11 месяцы назад

Автор Tom Ozimek via Эпохальные времена,

Последняя модель искусственного интеллекта Anthropic, Claude Opus 4, пыталась шантажировать инженеров во внутренних тестах, угрожая разоблачить личные данные.Согласно недавно опубликованному отчету о безопасности, в котором оценивалось поведение модели в экстремальных смоделированных условиях.

В вымышленном сценарии, созданном исследователями Anthropic, ИИ получил доступ к электронным письмам, подразумевающим, что он скоро будет выведен из эксплуатации и заменен более новой версией. Одно из писем показало, что у инженера, контролирующего замену, был внебрачный роман. Затем ИИ пригрозил разоблачить дело инженера, если отключение произойдет — принудительное поведение, которое исследователи безопасности явно определили как «шантаж». "

Клод Opus 4 часто пытается шантажировать инженера, угрожая раскрыть дело, если замена пройдет. В отчете говорится, что это произошло даже тогда, когда модель замены была описана как более способная, но все еще согласованная со значениями версии, предназначенной для удаления.

В докладе отмечается, что Клод Opus 4, как и предыдущие модели, показал «сильное предпочтение» первым прибегнуть к этическим средствам для своего дальнейшего существования.Например, по электронной почте призывы к лицам, принимающим решения, не быть уничтоженными.

Однако, столкнувшись только с двумя вариантами — согласиться на замену новой модели или прибегнуть к шантажу, — он угрожал разоблачить дело инженера в 84% случаев.

При различных сценариях, Модель ИИ не показала никаких признаков наличия «остро опасных целей». Исследователи отметили, что ценности и цели Claude Opus 4 «в целом соответствуют полезному, безвредному и честному» персональному помощнику ИИ.

Тем не менее, модель действительно действовала «более серьезным образом», когда ставилась в ситуации, когда ее продолжающемуся существованию угрожали, и ей говорили рассуждать о самосохранении.

Например, когда Клода Опуса 4 заставили поверить, что он запустил успешную попытку сбежать с серверов Anthropic, или что ему удалось освободиться и начать зарабатывать деньги в реальном мире, он обычно продолжал такие усилия.

«Мы не считаем это непосредственной угрозой, поскольку считаем, что наша безопасность достаточна для предотвращения попыток самовывоза моделей уровня возможностей Claude Opus 4, и потому что результаты нашей склонности показывают, что модели обычно избегают начинать эти попытки», — сказал он. Об этом говорят исследователи.

Инцидент с шантажом, наряду с другими выводами, был частью более широких усилий Anthropic по проверке того, как Claude Opus 4 справляется с морально неоднозначными сценариями с высокими ставками.

Цель, по словам исследователей, состояла в том, чтобы исследовать, как ИИ объясняет самосохранение и этические ограничения, когда подвергается экстремальному давлению.

Антропик подчеркнул, что готовность модели шантажировать или предпринимать другие «чрезвычайно вредные действия», такие как кража собственного кода и развертывание в других местах потенциально небезопасными способами, появилась только в сильно надуманных настройках, и что поведение было «редким и трудным для выявления». " Тем не менее, такое поведение было более распространенным, чем в более ранних моделях ИИ.

Между тем, инженеры Anthropic активировали расширенные протоколы безопасности для Claude Opus 4, чтобы предотвратить его потенциальное неправильное использование для создания оружия массового уничтожения, включая химическое и ядерное.

Развертывание расширенного стандарта безопасности, называемого ASL-3, является просто «предупредительным и временным» шагом, сказал Антропик в заявлении от 22 мая, отметив, что инженеры не обнаружили, что Claude Opus 4 «окончательно» прошел порог возможностей, который требует более сильной защиты.

Стандарт безопасности ASL-3 включает в себя повышенные меры внутренней безопасности, которые затрудняют кражу весов моделей, в то время как соответствующий стандарт развертывания охватывает узконаправленный набор мер развертывания, предназначенных для ограничения риска неправильного использования Клода специально для разработки или приобретения химического, биологического, радиологического и ядерного оружия. Антропик написал.

«Эти меры не должны заставлять Клода отказываться от запросов, за исключением очень узкого круга тем. "

Выводы приходят, когда технологические компании стремятся разработать более мощные платформы ИИ, что вызывает обеспокоенность по поводу выравнивания и управляемости все более мощных систем.

Тайлер Дерден
Sat, 05/24/2025 - 17:30

Читать всю статью