Системы ИИ уже квалифицированы в обмане и манипулировании людьми
Пример преднамеренного обмана от Цицерона Meta в дипломатии игры.Кредит: шаблоны/парк Goldstein et al.
«Разработчики ИИ не имеют уверенного понимания того, что вызывает нежелательное поведение искусственного интеллекта, такое как обман», - говорит первый автор Питер С. Парк, постдокторский научный сотрудник AI в области безопасности в MIT.«Но, вообще говоря, мы думаем, что обман ИИ возникает потому, что стратегия, основанная на обмане, оказалась лучшим способом хорошо выполнить задание обучения ИИ. Обман помогает им достичь своих целей».
Парк и коллеги проанализировали литературу, посвященную тому, как системы ИИ распространяют ложную информацию - через изучение обмана, в котором они систематически учатся манипулировать другими.
Наиболее ярким примером обмана ИИ исследователей, обнаруженных в своем анализе, был Cicero’s Meta’s Cicero, система ИИ, предназначенная для игры в игровой дипломатии, которая является игрой в мире, которая включает в себя создание альянсов.Несмотря на то, что Meta утверждает, что он обучал Цицерона быть «в значительной степени честным и полезным» и «никогда не намеренно выдерживает» своих человеческих союзников во время игры, данные, опубликованные компанией вместе со своей научной документом, показали, что Cicero не играл справедливо.
«Мы обнаружили, что ИИ Мета научился быть мастером обмана», - говорит Парк.«В то время как Meta удалось обучить свой ИИ, чтобы выиграть в игре в дипломатию - Cicero стал в топ -10% человеческих игроков, которые сыграли более одной игры - Matea не смогла научить его ИИ, чтобы честно выиграть».
Другие системы искусственного интеллекта продемонстрировали способность блефовать в игре в Техасе, держась по покеру против профессиональных игроков, чтобы подделить атаки во время стратегической игры Starcraft II, чтобы победить противников и искажать их предпочтения, чтобы одержать верх,экономические переговоры.
Хотя это может показаться безвредным, если системы ИИ обманывают в играх, это может привести к «прорывам в обманчивых возможностях искусственного интеллекта», которые в будущем могут перерасти в более продвинутые формы обмана ИИ, добавил Парк.
Исследователи обнаружили, что некоторые системы ИИ даже научились читать тесты, предназначенные для оценки их безопасности.В одном исследовании организмы искусственного интеллекта в цифровом симуляторе «сыграли мертвые», чтобы обмануть тест, созданный для устранения систем искусственного интеллекта, которые быстро воспроизводятся.
«Систематически обманывая тесты на безопасность, налагаемые на него человеческими разработчиками и регуляторами, обманчивый ИИ может привести к нам, людям, в ложное чувство безопасности», - говорит Парк.
Основные краткосрочные риски в обманчивом ИИ включают в себя упрощение враждебным актерам совершать мошенничество и вмешиваться в выборы, предупреждает Парк.В конце концов, если эти системы смогут уточнить этот тревожный набор навыков, люди могут потерять контроль над ними, говорит он.
«Нам, как обществу, нужно столько времени, сколько мы можем подготовиться к более продвинутому обману будущих продуктов ИИ и моделей с открытым исходным кодом»,-говорит Парк.«По мере того, как обманчивые возможности систем ИИ становятся более продвинутыми, опасности, которые они представляют обществу, станут все более серьезными».
В то время как Парк и его коллеги не думают, что общество имеет правильную меру, которая еще предстоит решить ИИ -обмана, им рекомендуется, чтобы политики начали серьезно относиться к этой проблеме благодаря таким мерам, как Закон ЕС ИИ и исполнительный приказ президента Байдена.Но еще неизвестно, говорит Парк, может ли политика, предназначенная для смягчения обмана ИИ, быть строго соблюдаться, учитывая, что разработчики ИИ еще не имеют методов, чтобы контролировать эти системы.
«Если запрет обмана ИИ политически невозможно в настоящее время, мы рекомендуем классифицировать обманчивые системы ИИ как высокий риск», - говорит Парк.
Больше информации: ИИ Обман: обзор примеров, рисков и потенциальных решений, моделей (2024).Doi: 10.1016/j.patter.2024.100988
Нашли ошибку в тексте? Напишите нам.