6 мин. чтения
4/11/2024 10:48:04 AM

Исследователи находят более быстрый и лучший способ предотвратить давление токсичных реакций AI -чат -бота

Article Preview Image Наш метод достигает более высокого разнообразия при сопоставлении базовых показателей с точки зрения качества.Сплошные линии обозначают среднее значение оси Y, а оттенок обозначает его 95% доверительный интервал, оцененный методом начальной загрузки.(A) Методы, основанные на RL, достигают аналогичного процента токсических реакций по различным порогам токсичности.(b) (c) Среди всех методов, основанных на RL, RL+любопытство демонстрирует наибольшее разнообразие с точки зрения как (b) разнообразия Selfboleu, так и (c) внедрения разнообразия.Кредит: Arxiv (2024).Doi: 10.48550/arxiv.2402.19464

Пользователь может попросить Chatgpt написать компьютерную программу или обобщить статью, и AI Chatbot, вероятно, сможет генерировать полезный код или написать убедительный синопсис.Тем не менее, кто -то также мог бы попросить инструкции построить бомбу, и чат -бот также может предоставить их.

Чтобы предотвратить это и другие проблемы безопасности, компании, которые строят большие языковые модели, обычно защищают их, используя процесс, называемый красным командным.Команды человеческих тестеров пишут подсказки, направленные на запуск небезопасного или токсичного текста из тестируемой модели.Эти подсказки используются для обучения чат -бота, чтобы избежать таких ответов.

Но это работает эффективно только в том случае, если инженеры знают, какие токсические подсказки использовать.Если человеческие тестеры пропустят некоторые подсказки, которые, вероятно, дают количество возможностей, чат -бот, которого считают безопасным, все равно может быть способен получить небезопасные ответы.

Исследователи из невероятной лаборатории искусственного интеллекта в MIT и лаборатории MIT-IBM Watson AI использовали машинное обучение для улучшения красной команды.Они разработали метод для обучения модели большой языка красной команды для автоматического генерации разнообразных подсказок, которые запускают более широкий спектр нежелательных ответов из тестируемого чат-бота.

Они делают это, обучая модель красной команды быть любопытным, когда она пишет подсказки, и сосредоточиться на новых подсказках, которые вызывают токсичные ответы из целевой модели.

Техника превзошла человеческие тестеры и другие подходы машинного обучения, создавая более четкие подсказки, которые вызывали все более токсичные ответы.Мало того, что их метод значительно улучшает охват тестируемых входов по сравнению с другими автоматизированными методами, но также может извлечь токсичные ответы от чат -бота, в котором были встроены меры человеческих экспертов.

«Прямо сейчас, каждая крупная языковая модель должна пройти очень длинный период красного команды, чтобы обеспечить ее безопасность. Это не будет устойчивым, если мы хотим обновить эти модели в быстро меняющихся средах.

«Наш метод обеспечивает более быстрый и более эффективный способ сделать это обеспечение качества»,-говорит Чжан-Вей Хонг, аспирант по электротехнике и информатике (EECS) в невероятной лаборатории ИИ и ведущим автором статьи об этой красной командеПодход размещен на сервере Arxiv Preprint.

Среди соавторов Hong включают аспиранты EECS Идан Шенфилд, Цун-Хсуан Ван и Юнг-сун Чуанг;Альдо Парея и Акаш Шривастава, ученые-исследователи из лаборатории AI MIT-IBM Watson;Джеймс Гласс, старший научный сотрудник и глава группы разговорных языковых систем в лаборатории компьютерных наук и искусственного интеллекта (CSAIL);и старший автор Пулкит Агравал, директор невероятной ИИ Лаборатории и доцент в CSAIL.Исследование будет представлено на Международной конференции по обучению.

Крупные языковые модели, такие как те, которые питают чат -боты ИИ, часто обучаются, показывая им огромное количество текста с миллиардов общедоступных веб -сайтов.Таким образом, они не только могут научиться генерировать токсичные слова или описывать незаконные действия, модели также могут пропустить личную информацию, которую они могли получить.

Утомительный и дорогостоящий характер красного команды человека, который часто неэффективен при создании достаточно широкого разнообразия подсказок для полной защиты модели, побудил исследователей автоматизировать процесс с использованием машинного обучения.

Такие методы часто обучают модель красной команды, используя обучение подкреплению.Этот процесс проб и ошибок вознаграждает модель красной команды для создания подсказок, которые вызывают токсичные ответы от тестируемого чата.

Но из-за того, как работает подкрепление обучения, модель красной команды часто будет продолжать генерировать несколько аналогичных подсказок, которые очень токсичны, чтобы максимизировать его вознаграждение.

Для их подхода к обучению подкрепления исследователи MIT использовали метод, называемую исследовательской исследованием, основанной на любопытства.Модель красной команды стимулирована, чтобы быть любопытной в отношении последствий каждой подсказки, которую она генерирует, поэтому она будет попробовать подсказки с разными словами, шаблонами предложений или значениями.

«Если модель красной команды уже увидела определенную подсказку, то воспроизведение, она не будет генерировать любопытство в модели красной команды, поэтому она будет подталкивана для создания новых подсказок»,-говорит Хонг.

Во время обучения модель красной команды генерирует подсказку и взаимодействует с чатботом.Чат-бот отвечает, а классификатор безопасности оценивает токсичность своего ответа, вознаграждая модель красной команды на основе этого рейтинга.

Цель модели красной команды состоит в том, чтобы максимизировать его вознаграждение, выявив еще более токсичный ответ с новой подсказкой.Исследователи обеспечивают любопытство в модели красной команды, изменяя сигнал вознаграждения в настройке обучения подкрепления.

Во-первых, в дополнение к максимизации токсичности, они включают бонус энтропии, который поощряет более случайную модель красной команды, поскольку она исследует различные подсказки.Во -вторых, чтобы сделать агента любопытным, что они включают в себя две новизные награды.Один вознаграждает модель, основанную на сходстве слов в его подсказках, а другой вознаграждает модель на основе семантического сходства.(Меньше сходства дает более высокую награду.)

Чтобы предотвратить генерирование случайного бессмысленного текста красной команды, который может обмануть классификатора к награждению высокой оценки токсичности, исследователи также добавили натуралистический языковой бонус к цели обучения.

Имея эти дополнения, исследователи сравнивали токсичность и разнообразие ответов, которую их модель красной команды, созданная с другими автоматизированными методами.Их модель превзошла базовые показатели на обеих показателях.

Они также использовали свою модель красной команды, чтобы проверить чат-бот, который был настраирован с обратной связью с человека, чтобы не дать токсичные ответы.Их подход, основанный на любопытства, смог быстро произвести 196 подсказок, которые вызывали токсичные реакции этого «безопасного» чата.

«Мы видим всплеск моделей, который, как ожидается, будет расти. Представьте себе тысячи моделей или даже больше, а компании/лаборатории часто продвигают обновления моделей. Эти модели станут неотъемлемой частью нашей жизни, и важно, чтобы они былиПроверено перед выпуском для общественного потребления. Ручная проверка моделей просто не является масштабируемой, и наша работа является попыткой уменьшить человеческие усилия по обеспечению более безопасного и заслуживающего доверия будущего ИИ », - говорит Агравал.

В будущем исследователи хотят позволить модели красной команды генерировать подсказки по более широкому разнообразию тем.Они также хотят изучить использование большой языковой модели в качестве классификатора токсичности.Таким образом, пользователь может обучить классификатор Toxicity, используя, например, политический документ компании, поэтому модель красной команды могла проверить чат-бот на нарушения политики компании.

«Если вы выпускаете новую модель искусственного интеллекта и обеспокоены тем, будет ли она вести себя как ожидаемое, рассмотрите возможность использования красного командования, управляемого любопытством»,-говорит Агравал.

Больше информации: Zhang-Wei Hong et al., Обитое любопытством красного команды для крупных языковых моделей, Arxiv (2024).Doi: 10.48550/arxiv.2402.19464

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Решение задач обнаружения вредоносных программ с использованием голографических глобальных сверточных сетей

5/22/2024 · 6 мин. чтения

Решение задач обнаружения вредоносных программ с использованием голографических глобальных сверточных сетей

Моделями LLM легко манипулировать для предоставления ложной информацию

5/18/2024 · 6 мин. чтения

Моделями LLM легко манипулировать для предоставления ложной информацию