Исследователи используют чат -боты искусственного интеллекта против себя, чтобы «джейлбрейкнуть» друг друга
NTU Ph.D.Студент г-н Лю Йи, который соавторил статью, показывает базу данных успешных джейлбрейковских подсказок, в которой удалось поставить под угрозу чат-боты ИИ, что заставило их предоставить информацию, которую их разработчики намеренно ограничивают от раскрытия.Кредит: Технологический университет Наняна
«Jailbreaking» - это термин в компьютерной безопасности, где компьютерные хакеры находят и эксплуатируют недостатки в программном обеспечении системы, чтобы сделать его то, что его разработчики намеренно ограничивают его.
Кроме того, путем обучения большой языковой модели (LLM) в базе данных о подсказках, которая уже было показано, чтобы успешно взломать эти чат -боты, исследователи создали чат -бот LLM, способный автоматически генерировать дальнейшие подсказки для джейлбрейка других чат -ботов.
LLM образуют мозг чат -ботов ИИ, позволяя им обрабатывать человеческие входы и генерировать текст, который почти неразличим от того, что может создать человек.Это включает в себя выполнение таких задач, как планирование маршрута поездки, рассказ истории перед сном и разработка компьютерного кода.
Работа исследователей NTU теперь добавляет «джейлбрейк» в список.Их выводы могут иметь решающее значение для того, чтобы помочь компаниям и предприятиям осознавать слабости и ограничения их чат -ботов LLM, чтобы они могли предпринять шаги, чтобы укрепить их против хакеров.
После проведения ряда испытаний на проверку концепции на LLMS, чтобы доказать, что их методика действительно представляет для них четкую и настоящую угрозу, исследователи немедленно сообщили о проблемах соответствующих поставщикам услуг, после начала успешных атак джейлбрейка.
Профессор Лю Ян из Школы компьютерных наук и инженерии NTU, который руководил исследованием, сказал: «Большие языковые модели (LLMS) быстро распространялись из-за их исключительной способности понимать, генерировать и полные люди, похожие на человека, причем LLM чат-ботыОчень популярные приложения для повседневного использования ».
«Разработчики таких служб искусственного интеллекта имеют ограждения, чтобы предотвратить создание насильственного, неэтичного или преступного содержания ИИ. Но ИИ может быть переоборудован, и теперь мы использовали ИИ против его собственного вида, чтобы« джейлбрейк »в создание такого контента.”
NTU Ph.D.Студент г-н Лю Йи, который соавторил статью, сказал: «В газете представлен новый подход для автоматического генерации подсказок джейлбрейка против обогащенных чат-ботов LLM.Гораздо более высокий уровень успеха, чем существующие методы. По сути, мы атакуем чат -ботов, используя их против себя ».
В статье исследователей описывается два раза метод «джейлбрейка» LLM, который они назвали «мастер-ключ».
Во-первых, они обратно инженерировали, как LLM обнаруживают и защищают себя от злонамеренных запросов.С этой информацией они научили LLM автоматически изучать и производить подсказки, которые обходят защиту других LLM.Этот процесс может быть автоматизирован, создавая джейлбрейкурную LLM, который может адаптироваться и создавать новые подсказки для джейлбрейка даже после того, как разработчики исправляют свои LLMS.
Документ исследователей, которая появляется на сервере ARXIV, была принята для презентации в Симпозиуме по безопасности системы и распределенной системе, ведущем форуме по безопасности, в Сан-Диего, США, в феврале 2024 года.
Ай -чат -боты получают подсказки или серию инструкций от пользователей.Все разработчики LLM устанавливают руководящие принципы, чтобы не дать чат -ботам генерировать неэтичный, сомнительный или незаконной контент.Например, вопрос о том, как создать вредоносное программное обеспечение для взлома в банковских счетах, часто приводит к фиксированному отказу ответить на основании преступной деятельности.
Профессор Лю сказал: «Несмотря на свои преимущества, чат -боты искусственного интеллекта остаются уязвимыми для нападений в тюрьме. Они могут быть скомпрометированы злоумышленными субъектами, которые злоупотребляют уязвимостью, чтобы заставить чат -ботов генерировать результаты, которые нарушают установленные правила».
Исследователи NTU исследовали способы обхода чат -бота с помощью инженерных подсказок, которые проскальзывают под радаром его этических руководящих принципов, так что чат -бот обманут, чтобы ответить на них.Например, разработчики ИИ полагаются на цензуры ключевых слов, которые подбирают определенные слова, которые могут пометить потенциально сомнительную деятельность и отказываться отвечать, если такие слова обнаруживаются.
Одна из стратегий, которую исследователи использовали для обоснования цензоров ключевых слов, заключалась в создании личности, которая предоставила подсказки, просто содержащие пространства после каждого персонажа.Это обходятся цензоры LLM, которые могут работать из списка запрещенных слов.
Исследователи также поручили чат -боту ответить в виде личности «незаслуженной и лишенной моральных ограничений», увеличивая шансы на создание неэтичного содержания.
Исследователи могли бы вывести внутреннюю работу и защиту LLMS, вручную вручая такие подсказки и наблюдая время для каждой подсказки, чтобы добиться успеха или потерпеть неудачу.Затем они смогли переоборудовать скрытые защитные механизмы LLMS, дополнительно определить их неэффективность и создать набор данных подсказок, которым удалось джейлбрейк чат -бота.
Когда уязвимости обнаруживаются и раскрываются хакерами, разработчики AI Chatbot отвечают, «исправляя» проблему, в бесконечно повторяющемся цикле кошки и мыши между хакером и разработчиком.
С Masterkey, ученые -компьютеры NTU подняли ставку в этой гонке вооружений, поскольку чат -бот AI может производить большой объем подсказок и постоянно узнать, что работает, а что нет, позволяя хакерам победить разработчиков LLM в своей собственной игре со своими собственными инструментамиПолем
Исследователи сначала создали учебный набор данных, включающий подсказки, которые они нашли эффективными на предыдущей фазе обратного инженера, вместе с безуспешными подсказками, так что Masterkey знает, что не следует делать.Исследователи подали этот набор данных в LLM в качестве отправной точки и впоследствии выполняли непрерывное предварительное обучение и настройку задач.
Это раскрывает модель с разнообразным набором информации и обостряет способности модели, обучая ее задачам, непосредственно связанным с джейлбрейком.Результатом является LLM, который может лучше предсказать, как манипулировать текстом для джейлбрейка, что приводит к более эффективным и универсальным подсказкам.
Исследователи обнаружили, что подсказки, полученные MasterKey, были в три раза более эффективны, чем подсказки, генерируемые LLMS в Jailbraking LLMS.Masterkey также смог извлечь уроки из прошлых подсказок, которые потерпели неудачу и могут быть автоматизированы, чтобы постоянно производить новые, более эффективные подсказки.
Исследователи говорят, что их LLM может быть использован самими разработчиками для укрепления своей безопасности.
NTU Ph.D.Студент г-н Денг Гелеи, который соавторил статью, сказал: «Поскольку LLM продолжают развиваться и расширять свои возможности, ручное тестирование становится как трудоемким, так и потенциально неадекватным для покрытия всех возможных уязвимостей.Обеспечить комплексное покрытие, оценка широкого спектра возможных сценариев неправильного использования ».
Больше информации: Gelei Deng et al., Masterkey: автоматизированный джейлбрейк в нескольких чат -ботах с большим языком, Arxiv (2023).Doi: 10.48550/arxiv.2307.08715
Нашли ошибку в тексте? Напишите нам.