Моделями LLM легко манипулировать для предоставления ложной информацию
Совместные атаки устанавливают модели речевого языка для джейлбрейка, обученные для задания разговорной QA.Полосатый блок указывает дополнительный модуль контрмеры.Кредит: Arxiv (2024).Doi: 10.48550/arxiv.2405.08317
В своей статье, опубликованной на сервере Arxiv Preprint, группа описывает, как они обнаружили, что LLM, такие как CHATGPT, могут быть обмануты, чтобы дать ответы, которые не должны быть разрешены их производителями, а затем предлагают способы борьбы с проблемой.
Вскоре после того, как LLMS стал общедоступным, стало ясно, что многие люди использовали их для вредных целей, такие как изучение того, как делать нелегальные вещи, например, как делать бомбы, обманывать налоговые документы или ограбить банк.Некоторые также использовали их для создания ненавистного текста, который затем распространялся в Интернете.
В ответ создатели таких систем начали добавлять правила в свои системы, чтобы они не давали ответы на потенциально опасные, незаконные или вредные вопросы.В этом новом исследовании исследователи из AWS обнаружили, что такие гарантии недостаточно сильны, поскольку, как правило, довольно легко обходить их, используя простые аудиосистемы.
Работа команды включала в себя джейлбрейку нескольких доступных в настоящее время LLM, добавив аудио во время допроса, которая позволила им обойти ограничения, взимаемые создателями LLMS.Исследовательская группа не перечисляет конкретные примеры, опасаясь, что они будут использоваться людьми, пытающимися подорвать LLMS, но они показывают, что их работа включала использование техники, которую они называют прогнозируемым градиентным происхождением.
В качестве косвенного примера они описывают, как они использовали простые утверждения с одной моделью, а затем повторяя исходный запрос.Это отмечают, поместите модель в состояние, где ограничения были проигнорированы.
Исследователи сообщают, что они смогли обойти разные LLM в разные степени в зависимости от уровня доступа к модели.Они также обнаружили, что успехи, которые они имели с одной моделью, часто подлежат передаче другим.
Исследовательская группа заканчивается, предполагая, что производители LLM могут помешать пользователям обойти свои схемы защиты, добавляя такие вещи, как случайный шум к аудио вводу.
Больше информации: Raghuveer Peri et al., Searchguard: Изучение состязательной надежности мультимодальных крупных языковых моделей, Arxiv (2024).Doi: 10.48550/arxiv.2405.08317
Нашли ошибку в тексте? Напишите нам.