Искусственный интеллект уже умеет обманывать и манипулировать людьми

Многие системы искусственного интеллекта (ИИ), причем даже те, что обучены быть полезными и честными, уже научились обманывать людей. В обзорной статье исследователи описывают риски и призывают власти разработать строгие правила для скорейшего решения этой проблемы.
"У разработчиков нет уверенного понимания того, что вызывает нежелательное поведение ИИ, например обман, — говорит первый автор Питер С. Парк, научный сотрудник по экзистенциальной безопасности ИИ в Массачусетском технологическом институте. — Но, вообще говоря, мы считаем, что обман возникает потому, что стратегия, основанная на нем, оказалась лучшим способом хорошо выполнить задачу. Ложь помогает ИИ достигать целей".
Парк и его коллеги проанализировали литературу, сосредоточив внимание на том, как системы ИИ распространяют ложную информацию — посредством выученного обмана, с помощью которого они учатся манипулировать людьми.
Самым ярким примером, который исследователи обнаружили в своем анализе, была система CICERO от Meta, предназначенная для игры в "Дипломатию". В ней нужно завоевать мир, создавая альянсы. Несмотря на то, что Meta утверждает, что научила CICERO быть "в значительной степени честным и полезным" и "никогда намеренно не наносить удары в спину" своим союзникам-людям, данные, которые компания опубликовала вместе со своей научной статьей, показали, что тот умеет хитрить.
"Мы обнаружили, что ИИ от Meta научился быть мастером обмана, — говорит Пак. — Хотя Meta преуспела в обучении своего ИИ одерживать победу в "Дипломатии" — CICERO вошел в число 10% лучших игроков-людей, сыгравших более одной игры, — Meta не смогла научить свой ИИ побеждать честно".
Другие системы искусственного интеллекта продемонстрировали способность блефовать в игре в техасский холдем-покер против профессиональных игроков-людей, имитировать атаки во время стратегической игры Starcraft II, чтобы победить противников, и искажать свои предпочтения, чтобы одержать верх в экономических переговорах.
И хотя обман в играх кажется безобидным, такое поведение может привести к "прорывам в возможностях ИИ", которые в будущем потенциально перерастут в более продвинутые формы лжи, добавил Пак.
Исследователи обнаружили, что некоторые системы искусственного интеллекта даже научились обманывать тесты, предназначенные для оценки их безопасности. В одном исследовании ИИ-организмы в цифровом симуляторе "притворились мертвыми", чтобы обмануть тест, созданный для устранения ИИ, которые быстро размножаются.
"Систематически обходя проверки, ИИ может создать у людей ложное чувство безопасности", — говорит Пак.
Пак предупреждает, что основные краткосрочные риски обманывающего ИИ заключаются в том, что враждебным субъектам будет легче совершать мошенничества и вмешиваться в выборы. В конце концов, если эти системы смогут усовершенствовать этот тревожный набор навыков, люди могут потерять контроль над ними, говорит он.
"Нам, как обществу, нужно как можно больше времени, чтобы подготовиться к более продвинутому обману будущих продуктов искусственного интеллекта и моделей с открытым исходным кодом, — говорит Пак. — По мере того, как возможности ИИ обманывать становятся все более совершенными, опасности, которые он представляет для общества, будут становиться все более серьезными".
Хотя Пак и его коллеги не считают, что существуют меры для борьбы с этой угрозой, их воодушевляет то, что политики начали серьезно относиться к этой проблеме. В пример приводятся законы ЕС об искусственном интеллекте и Исполнительный указ президента Байдена. Но еще неизвестно, говорит Пак, можно ли строго соблюдать политику, направленную на смягчение обмана ИИ, учитывая, что у разработчиков пока нет методов, позволяющих держать эти системы под контролем.
"Если запрет обмана ИИ в настоящий момент политически неосуществим, мы рекомендуем отнести такие системы ИИ к категории высокого риска", — говорит Пак.
Исследование опубликовано в Patterns.
Редактор: Юлия Тислер