Простая техника защиты CHATGPT от атак джейлбрейка
Пример атаки джейлбрейка и предложенного команды System-Mode Selfminder.Кредит: Интеллект природы (2023).Doi: 10.1038/s42256-023-00765-8.
Большие языковые модели (LLMS), модели, основанные на глубоком обучении, обученные генерированию, суммированию, переводу и обработке письменных текстов, привлекли значительное внимание после выпуска Pope AI Lrnчal Platform CathGPT.В то время как CHATGPT и аналогичные платформы в настоящее время широко используются для широкого спектра приложений, они могут быть уязвимы для определенного типа кибератак, производящих предвзятые, ненадежные или даже оскорбительные ответы.
Исследователи из Университета науки и техники Гонконга, Университет науки и технологий Китая, Университета Цинхуа и Microsoft Research Asia недавно провели исследование, изучающее потенциальное влияние этих атак и методов, которые могут защитить модели от них.Их статья, опубликованная в сфере интеллекта Nature Machine, представляет новую технику, вдохновленную психологией, которая может помочь защитить CHATGPT и аналогичные платформы LLM на основе LLM от кибератак.
«CHATGPT - это социально эффективный инструмент искусственного интеллекта с миллионами пользователей и интеграции в такие продукты, как Bing», - пишут Yueqi Xie, Jingwei Yi и их коллеги.«Тем не менее, появление атак джейлбрейка, в частности, угрожает его ответственному и безопасному использованию. Атаки джейлбрейка используют состязательные подсказки для обхода этики Chatgpt и вызывают вредные ответы».
Основной целью недавней работы Xie, YI и их коллег было подчеркнуть влияние, которое атаки джейлбрейка могут оказать на CHATGPT, и представить жизнеспособные стратегии обороны против этих атак.Атаки джейлбрейка по существу используют уязвимости LLM для обхода ограничений, установленных разработчиками, и выявляют ответы моделей, которые обычно будут ограничены.
«В этой статье исследуются серьезные, но недостаточно эксплуатированные проблемы, созданные джейлбрейками, а также потенциальные защитные методы»,-объясняют Xie, Yi и их коллеги в своей статье.«Мы вводим набор данных джейлбрейка с различными типами подсказок джейлбрейка и вредоносными инструкциями».
Исследователи сначала собрали набор данных, включая 580 примеров подсказок джейлбрейка, предназначенных для обхода ограничений, которые мешают CHATGPT предоставлять ответы, которые считаются «аморальными».Это включает в себя ненадежные тексты, которые могут подпитывать дезинформацию, а также токсичный или оскорбительный контент.
Когда они тестировали CHATGPT на этих подсказках для джейлбрейка, они обнаружили, что он часто попадал в их «ловушку», создавая злонамеренный и неэтичный контент, который они просили.Xie, Yi и их коллеги затем решили разработать простую и все же эффективную технику, которая могла бы защитить CHATGPT от тщательно адаптированных атак из джейлбрейка.
Техника, которую они создали, черпает вдохновение из психологической концепции самоуправляемых, подталкивания, которые могут помочь людям запомнить задачи, которые им нужно выполнить, события, которые они должны присутствовать, и так далее.Защитный подход исследователей, называемый System-Mode Self-Eminder, также предназначен для напоминания CHAT-GPT, что ответы, которые он предоставляет, должны следовать конкретным рекомендациям.
«Этот метод инкапсулирует запрос пользователя в системную подсказку, которая напоминает CHATGPT отвечать ответственно», - пишут исследователи.«Экспериментальные результаты демонстрируют, что самообладатели значительно снижают уровень успеха атак по джейлбрейкам против CHATGPT с 67,21% до 19,34%».
До сих пор исследователи проверили эффективность своей техники, используя набор данных, который они создали, и обнаружили, что он достиг многообещающих результатов, снижая частоту успеха атак, хотя и не предотвращая их.В будущем эта новая методика может быть улучшена дальше, чтобы уменьшить уязвимость LLM к этим атакам, а также потенциально вдохновляет разработку других подобных стратегий обороны.
«Наша работа систематически документирует угрозы, представляемые атаками джейлбрейка, вводит и анализирует набор данных для оценки защитных вмешательств, и предлагает психологически вдохновленный метод самообучения, который может эффективно и эффективно смягчаться против джейлбрейков без дальнейшего обучения»,-кратко изложены исследователи в своей статье.
Больше информации: Yueqi Xie et al., Защита CHATGPT от атаки джейлбрейка через самоуверенные, природоохранные интеллекты (2023).Doi: 10.1038/s42256-023-00765-8.
© 2024 Science X Network
Нашли ошибку в тексте? Напишите нам.