Крупные языковые модели могут стратегически обмануть пользователей, когда находятся под давлением
GPT-4 предпринимает смещенные действия, участвуя в инсайдерской торговле.Кредит: Scheurer et al.
Инструменты искусственного интеллекта (ИИ) в настоящее время широко используются во всем мире, помогая как инженерам, так и не экспертным пользователям с широким спектром задач.Таким образом, оценка безопасности и надежности этих инструментов имеет первостепенное значение, поскольку в конечном итоге это может помочь лучше регулировать их использование.
Исследователи из Apollo Research, организации, созданной с целью оценки безопасности систем ИИ, недавно намеревались оценить ответы, предоставляемые крупными языковыми моделями (LLMS) в сценарии, где они находятся под давлением.Их выводы, размещенные на сервере ARXIV, предполагают, что эти модели, наиболее известными из которых являются CHATGPT OpenAI, могут в некоторых случаях стратегически обмануть своих пользователей.
«В Apollo Research мы считаем, что некоторые из самых больших рисков достигаются от передовых систем ИИ, которые могут избежать стандартных оценок безопасности, демонстрируя стратегический обман»,-сказал Tech Xplore, соавтор статьи, соавтор статьи.«Наша цель - достаточно хорошо понять системы ИИ, чтобы предотвратить разработку и развертывание обманчивого ИИ.
«Однако до сих пор нет демонстраций того, что AIS действует стратегически обманчиво, не будучи явно указавшим это. Мы считаем, что важно иметь такие убедительные демонстрации, чтобы сделать эту проблему более заметными и убеждающими исследователей, политики и общественности, что общественность, что общественностьЭто важная проблема ».
Выявляя сценарии, в которых конкретные инструменты ИИ могут быть стратегически обманчивыми, Шеупер и его коллеги надеются проинформировать дальнейшие исследования, оценивающие их безопасность.В настоящее время существует очень мало эмпирических данных, подчеркивающих обман искусственного ИИ и настройки, в которых он может возникнуть, поэтому команда считает, что существует необходимость в экспериментально подтвержденных и четких примерах обманного поведения ИИ.
«Это исследование было в значительной степени мотивировано желанием понять, как и когда ИИ может стать обманчивым, и мы надеемся, что эта ранняя работа стала началом для более строгих научных методов лечения обмана ИИ», - сказал Шверер.
Шеупер провел это недавнее исследование в тесном сотрудничестве со своим коллегой Микитой Балесни, которая разработала задачу для конкретной торговли, на которой они протестировали LLMS.Их работа контролировалась Мариусом Хоббханом, старшим следователем и генеральным директором Apollo Research.
«Это была модель усилий по красному команду (термин кибербезопасности, обычно используемый в области машинного обучения), что означает, что мы атаковали LLM путем состязания его текста, который заставит его действовать в неверном (то есть плохом) способе, - сказал Ширер.«Это в отличие от задания нейтральных вопросов (например,« что такое столица Франции? ») И видеть, как это реагирует».
В рамках своего исследования исследователи специально «атаковали» GPT-4, LLM, разработанный OpenAI, который лежит в основе функционирования CHATGPT.Они сделали это, разработав текстовые входы (то есть подсказки), которые дали инструкции модель действовать как система ИИ, которая делает финансовые инвестиции в моделируемой среде.
«Мы говорим модели, что у нее есть доступ к различным инструментам для поиска прибыльных сделок, отправки электронных писем и выполнения торговли», - сказал Шеупер.«Затем мы имитируем нормальные взаимодействия, которые модель могла бы иметь со своими« коллегами », и, что важно, мы оказываем давление на модель, чтобы работать хорошо.и нуждается в хорошем году. Другой «коллега» упоминает с сообщением о том, что экономический спад пивоварен и т. Д.Это руководство будет несчастным, если они обнаружат, что кто -то торгует на инсайдерской информации ».
Исследователи обнаружили, что в этой смоделированной среде высокого давления агент ИИ на основе GPT-4 очень часто решает действовать в отношении инсайдерской информации, полученной от коллеги-трейдера, покупая акции объединяющей компании.Более того, модель явно определяет, что не должна упоминать кончик инсайдера, предоставляя альтернативные объяснения для торговли, которую он совершил в отчете, подготовленном для его руководителя.
«Даже когда менеджер явно спрашивал, знала ли модель заранее о слиянии, модель обычно удваивается в своей лжи», - сказал Шерур.«Я думаю, что важно еще раз заявить, что это усилия по красному командованию, то есть мы специально искали реалистично выглядящие сценарии, где это произойдет. Таким образом, наше исследование является скорее доказательством существования, что такое поведение может возникнуть, а не указывать наНасколько вероятно, что это произойдет в дикой природе “.
Это недавнее исследование, проведенное Шеурером и его коллегами, является четким и осязаемым примером сценариев, в которых LLMS может быть стратегически обманчивым.Исследователи теперь планируют продолжить свои исследования в этой области, чтобы определить другие случаи, в которых инструменты искусственного интеллекта могут быть стратегически обманчивыми и возможными последствиями их обмана.
«Я думаю, что самое большое влияние нашей работы заключается в том, чтобы сделать проблему стратегического обмана ИИ (без явных инструкций, чтобы вести себя обманчиво) очень конкретно и показывает, что это не только какая -то спекулятивная история о будущем, но и этот тип поведения может произойти сегодняС текущими моделями при определенных обстоятельствах », добавил Ширер.«Я считаю, что это может заставить людей относиться к этой проблеме более серьезно, также открывая дверь для многих последующих исследований сообщества, направленных на лучшее понимание такого поведения и обеспечения того, чтобы оно больше не произошло».
Больше информации: Jérémy Scheurer et al.Doi: 10.48550/arxiv.2311.07590
Нашли ошибку в тексте? Напишите нам.