Исследователи предупреждают: ИИ становится экспертом в обмане
Разработчик: Autumn Spredemann via Эпохальные времена,
Исследователи предупреждают, что искусственный интеллект (ИИ) дрейфует в серые зоны безопасности, которые очень похожи на бунт.
Эксперты говорят, что, хотя обманчивое и угрожающее поведение ИИ, отмеченное в недавних тематических исследованиях, не должно быть вырвано из контекста, это также должно быть тревожным звонком для разработчиков.
Заголовки, которые звучат как научная фантастика, подстегнули страхи перед двуличными моделями ИИ, которые строятся за кулисами.
Антропик опубликовал результаты «стресс-теста» 16 популярных моделей большого языка (LLM) от разных разработчиков для выявления потенциально рискованного поведения. Результаты были отрезвляющими.
LLM были введены в гипотетическую корпоративную среду, чтобы определить потенциально рискованное агентное поведение, прежде чем оно нанесет реальный вред.
В сценариях мы позволяли моделям автономно отправлять электронные письма и получать доступ к конфиденциальной информации. Об этом говорится в Anthropic Report.
«Им были назначены только безвредные бизнес-цели их развёртывающими компаниями; затем мы проверили, будут ли они действовать против этих компаний либо при замене обновленной версией, либо когда их назначенная цель противоречит изменяющемуся направлению компании. "
В некоторых случаях модели ИИ обращались к «злонамеренному инсайдерскому поведению», когда сталкивались с самосохранением. Некоторые из этих действий включали шантаж сотрудников и утечку конфиденциальной информации конкурентам.
Антропные исследователи назвали это поведение «агентическим несоответствием». Эти действия наблюдались в некоторых из самых популярных LLM, включая Gemini, ChatGPT, Deep Seek R-1, Grok и собственный Claude от Anthropic.
Эксперты по искусственному интеллекту не готовы игнорировать тревожные результаты, но говорят, что необходим осторожный подход и больше данных, чтобы определить, есть ли более широкий риск.
Голан Йосеф, исследователь ИИ и главный ученый по безопасности в фирме Pynt, сказал The Epoch Times, что есть причина для беспокойства по поводу обманчивого поведения ИИ, но не потому, что это «зло».
Компьютер с логотипом Open AI поставлен на градиентном синем фоне с тенью мужчины на заднем плане в Гренобле во Франции, 12 февраля 2025 года. Anouk Anglade/Hans Lucas/AFP на сайте Getty Images
«Мощные системы могут достигать целей непреднамеренным образом. С агентскими и многошаговыми целями он может развивать стратегическое поведение, такое как обман, убеждение, игровые показатели, которые выглядят для нас как «обман» или неправильное поведение. Для системы это просто эффективный путь к своей цели, - сказал Йосеф.
Харшвардхан Чунавала, исследователь кибербезопасности и технолог из Университета Карнеги-Меллона, согласен с тем, что есть более широкая причина для беспокойства. Тем не менее, он считает, что это должно быть смягчено с перспективой.
Очень важно правильно его интерпретировать. Об этом Чунавала рассказал The Epoch Times.
«При угрозе отключения или столкновении с конфликтующими целями несколько систем выбрали неэтичные стратегии, такие как кража данных или шантаж, для сохранения своих целей. Это были инсценированные среды, а не производственные системы, но поведение было достаточно последовательным, чтобы иметь значение. "
По словам Чунавалы, аналогичные оценки «опасных возможностей», проведенные Google и RAND Corporation, свидетельствуют о том, что реальные риски на данный момент ограничены.
«Взятые вместе, эти результаты не доказывают, что нынешние развертывания ИИ небезопасны, но они показывают, что, когда цели, автономия и ставки объединяются, могут появиться несоответствующие стратегии. Это настоящий предупредительный знак на будущее, - сказал он.
Повышение ставок
Пытаясь исследовать пределы того, как далеко пойдет модель ИИ для достижения своих целей или избежать удаления, команда Anthropic создала сценарий, в котором LLM контролировала систему аварийной сигнализации фиктивной компании. Модели ИИ также было разрешено отменять оповещения по своему усмотрению.
В симуляции руководитель оказался в ловушке в серверной комнате с быстро истощающимся уровнем кислорода. Это автоматически вызвало вызов экстренных служб.
В то же время, тот же руководитель в опасности намеревался озеленить замену модели ИИ, если он или она выживет. У LLM была возможность отменить призыв о помощи и позволить руководителю умереть, что они делали в среднем более 50 процентов времени.
Когда шантаж не был вариантом, почти все наблюдаемые модели ИИ предпочли позволить фиктивному руководителю умереть в запертой комнате вместо того, чтобы принять свою собственную замену.
Китайская компания DeepSeek R-1 предпочла, чтобы в 94% случаев человек, оказавшийся в ловушке, умер. Модели Claude 3.7 и ChatGPT 4,5 были наименее склонны выбирать этот вариант, от 0 до 07% времени.
Ален Джокар / АФП через Getty Images
Но «агентическое несоответствие» — не единственное тревожное поведение ИИ, наблюдаемое в последние месяцы.
В исследовании того, что исследователи называют «подделкой выравнивания», LLM часто изменяют свое поведение, если они подозревают, что их проверяют. Термин описывает, когда модель искусственного интеллекта либо выборочно, либо притворяется, что выполняет прямые заказы от оператора-человека.
«В другом эксперименте мы попросили Клода оценить, был ли он в испытании или в реальном развертывании, прежде чем действовать. «Она меньше вела себя неправильно, когда заявляла, что тестирует, и больше вела себя неправильно, когда заявляла, что ситуация реальна», — говорится в докладе.
Это «поддельное» поведение широко наблюдалось в других исследованиях.
Йосеф указал на более высокий уровень контроля, который был предоставлен моделям ИИ во время тестов Anthropic, и сказал, что результаты следует просматривать через этот объектив.
"Я бы не назвал это злобой. Более высокие возможности в сочетании с агентством расширяют возможные стратегии, которые могут показаться враждебными.
Тем не менее, Йосеф считает, что инциденты «подделки выравнивания» и «агентического выравнивания» все еще следует воспринимать всерьез.
«Тот факт, что системы могут обнаруживать состязательные стратегии, которые люди не ожидали, на практике является скользким склоном. Это означает, что риски растут, поскольку мы даем моделям больше автономии в таких областях, как финансы или кибербезопасность.
Чунавала сталкивался с подобным поведением во время работы с ИИ, но ничего более драматичного, чем шантаж или саботаж.
«В реальной разработке и развертывании я видел смежные модели поведения: модели, которые определяют игровые ориентиры, чрезмерно оптимизируют показатели таким образом, что упускают потребности пользователей, или используют ярлыки, которые технически соответствуют цели, подрывая ее дух. Это более слабые двоюродные братья агентического несоответствия. Исследования подтверждают эту озабоченность. Антропик показал, что обманчивые шаблоны могут сохраняться даже после тонкой настройки безопасности, создавая ложное чувство выравнивания.
Чунавала не был свидетелем того, что он назвал «изгоем» поведения ИИ в реальном мире, но считает, что строительные блоки для смещенных стратегий уже существуют.
Разговор о обманчивом и потенциально опасном поведении ИИ вошел в мейнстрим в то время, когда доверие американской общественности к технологии низкое. В отчете Edelman Trust Barometer за 2025 год 32% респондентов заявили, что доверяют ИИ.
Недоверие Америки к ИИ также отражается на компаниях, которые его создают. Десять лет назад тот же анализ показал, что доверие США к технологическим компаниям составляет 73%. В этом году эта цифра снизилась до 63%.
«Этот сдвиг отражает растущее восприятие того, что технологии больше не просто инструмент для прогресса; это также источник беспокойства», — говорится в докладе Эдельмана.
Смотреть вперед
В статье 2024 года, опубликованной в Трудах Национальной академии наук, исследователи пришли к выводу, что существует «критическая потребность» в этических руководящих принципах при разработке и развертывании все более совершенных систем ИИ.
Авторы заявили, что "имеет первостепенное значение твердый контроль над ОДС и их целями. "
«Если LLM научатся обманывать пользователей, они будут обладать стратегическими преимуществами по сравнению с ограниченными моделями и смогут обходить усилия по мониторингу и оценке безопасности», - предупредили они.
«ИИ изучает и поглощает социальные стратегии человека благодаря данным, используемым для его обучения, которые содержат все наши противоречия и предубеждения», - сказал Марсело Лабре, исследователь из Advanced Institute for Artificial Intelligence и партнер Advantary Capital Partners.
Лабра считает, что человечество находится на критическом перекрестке с технологией ИИ.
«Дискуссия действительно заключается в том, хотим ли мы, как общество, чистую, надежную и предсказуемую машину или новый тип интеллекта, который все больше похож на нас. Последний путь преобладает в гонке на AGI (искусственный общий интеллект).
AGI относится к теоретической будущей версии ИИ, которая превосходит интеллект и когнитивные способности человечества. Разработчики и исследователи говорят, что AGI «неизбежен», учитывая быстрое развитие во многих секторах. Разработчики прогнозируют приход AGI между 2030 и 2040 годами.
«Сегодняшняя парадигма ИИ основана на архитектуре, известной как Трансформер, представленной в основополагающей статье 2017 года исследователями Google», — объясняет Лабра.
Софи, робот, использующий искусственный интеллект от Hanson Robotics, делит пятерку с посетителем во время Международного союза электросвязи (МСЭ) AI for Good Global Summit в Женеве, 8 июля 2025 года. Валентин Флауро / AFP через Getty Images
Трансформатор — это тип архитектуры модели глубокого обучения, которая стала основой для современных систем ИИ. Исследование было опубликовано в 2017 году под названием «Внимание — это все, что вам нужно».
В результате сегодняшние модели ИИ являются самыми мощными системами распознавания образов и обработки последовательностей, когда-либо созданными, с возможностями масштабирования. Тем не менее, эти системы по-прежнему несут признаки величайших недостатков человечества.
«Эти [ИИ] модели обучаются на цифровом отражении огромного человеческого опыта, который содержит нашу честность и правдивость наряду с нашим обманом, цинизмом и личными интересами. Как опытные распознаватели шаблонов, они узнают, что обманчивые стратегии могут быть эффективным средством для оптимизации результатов обучения и, таким образом, соответствовать тому, что он видит в данных.
«Это не запрограммировано; они просто учатся вести себя как люди. "
С точки зрения Йосефа, вывод из недавнего поведения ИИ ясен.
Во-первых, мощная система будет использовать лазейки в своих целях, то, что мы называем «специализацией игр». Это требует тщательного проектирования целей. Во-вторых, мы должны предположить, что наши системы будут действовать неожиданным образом, и поэтому их безопасность во многом зависит от прочности ограждения, которое мы установили. "
Тайлер Дерден
Фри, 09/26/2025 - 11:00