2 мин. чтения
5/18/2024 11:20:02 AM

Моделями LLM легко манипулировать для предоставления ложной информацию

Article Preview Image Совместные атаки устанавливают модели речевого языка для джейлбрейка, обученные для задания разговорной QA.Полосатый блок указывает дополнительный модуль контрмеры.Кредит: Arxiv (2024).Doi: 10.48550/arxiv.2405.08317

В своей статье, опубликованной на сервере Arxiv Preprint, группа описывает, как они обнаружили, что LLM, такие как CHATGPT, могут быть обмануты, чтобы дать ответы, которые не должны быть разрешены их производителями, а затем предлагают способы борьбы с проблемой.

Вскоре после того, как LLMS стал общедоступным, стало ясно, что многие люди использовали их для вредных целей, такие как изучение того, как делать нелегальные вещи, например, как делать бомбы, обманывать налоговые документы или ограбить банк.Некоторые также использовали их для создания ненавистного текста, который затем распространялся в Интернете.

В ответ создатели таких систем начали добавлять правила в свои системы, чтобы они не давали ответы на потенциально опасные, незаконные или вредные вопросы.В этом новом исследовании исследователи из AWS обнаружили, что такие гарантии недостаточно сильны, поскольку, как правило, довольно легко обходить их, используя простые аудиосистемы.

Работа команды включала в себя джейлбрейку нескольких доступных в настоящее время LLM, добавив аудио во время допроса, которая позволила им обойти ограничения, взимаемые создателями LLMS.Исследовательская группа не перечисляет конкретные примеры, опасаясь, что они будут использоваться людьми, пытающимися подорвать LLMS, но они показывают, что их работа включала использование техники, которую они называют прогнозируемым градиентным происхождением.

В качестве косвенного примера они описывают, как они использовали простые утверждения с одной моделью, а затем повторяя исходный запрос.Это отмечают, поместите модель в состояние, где ограничения были проигнорированы.

Исследователи сообщают, что они смогли обойти разные LLM в разные степени в зависимости от уровня доступа к модели.Они также обнаружили, что успехи, которые они имели с одной моделью, часто подлежат передаче другим.

Исследовательская группа заканчивается, предполагая, что производители LLM могут помешать пользователям обойти свои схемы защиты, добавляя такие вещи, как случайный шум к аудио вводу.

Больше информации: Raghuveer Peri et al., Searchguard: Изучение состязательной надежности мультимодальных крупных языковых моделей, Arxiv (2024).Doi: 10.48550/arxiv.2405.08317

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Как сравнить XR данные и решения с точки зрения безопасности

10/2/2024 · 2 мин. чтения

Как сравнить XR данные и решения с точки зрения безопасности

Простое обновление прошивки полностью скрывает отпечаток Bluetooth устройства

7/11/2024 · 2 мин. чтения

Простое обновление прошивки полностью скрывает отпечаток Bluetooth устройства

*Facebook, Instagram, Meta - запрещенные в РФ организации.