Обеспечение безопасности бэкдора в моделях машинного обучения
Программные системы окружают нас повсюду — от операционных систем наших компьютеров до поисковых систем и автоматизации, используемой в промышленных приложениях. В центре всего этого находятся данные, которые используются в компонентах машинного обучения (ML), доступных в самых разных приложениях, включая беспилотные автомобили и большие языковые модели (LLM). Поскольку многие системы полагаются на компоненты машинного обучения, важно гарантировать их безопасность и надежность
Для моделей машинного обучения, обученных методами робастной оптимизации (робастные модели машинного обучения), их эффективность против различных атак неизвестна. Примером основного вектора атаки является отравление бэкдором, которое относится к скомпрометированным обучающим данным, вводимым в модель. Технологии, которые обнаруживают бэкдор-атаки в стандартных моделях машинного обучения, существуют, но надежные модели требуют других методов обнаружения бэкдор-атак, поскольку они ведут себя иначе, чем стандартные модели, и содержат другие предположения.
Это пробел, который доктор Судипта Чаттопадхьяй, доцент кафедры технологий и проектирования информационных систем (ISTD) Сингапурского университета технологий и дизайна (SUTD), стремился закрыть.
Видимый распределенный триггер показан на рисунке 1 (а), а целевая метка - семь (7). Обучающие данные изменяются. Мы видим это на рисунке 1 (b), и модель обучается на этих отравленных данных. Входы без триггера будут правильно классифицированы, а входы с триггером будут неправильно классифицированы во время вывода, как показано на рисунке 1 (c). Автор: SUTD
Проблема бэкдора актуальна и опасна, особенно из-за того, как разрабатываются текущие программные конвейеры. Чаттопадхьяй заявил: «В настоящее время никто не разрабатывает конвейер моделей машинного обучения и сбор данных с нуля. Они могут загружать обучающие данные из Интернета или даже использовать предварительно обученную модель. Если предварительно обученная модель или набор данных будут отравлены, результирующее программное обеспечение, использующее эти модели, будет небезопасным. Часто для создания бэкдора требуется всего 1% отравления данными».
Модель атаки для AEGIS. Автор: SUTD
С этой целью Чаттопадхьяй исследовал бэкдор-атаки на надежные модели и обнаружил, что они очень восприимчивы (67,8% успеха). Он также обнаружил, что отравление обучающего набора создает смешанные входные распределения для отравленного класса, позволяя робастной модели изучать множественные представления признаков для определенного класса прогнозирования. В отличие от этого, чистые модели будут изучать только одно представление признаков для определенного класса прогнозирования.
Вместе с коллегами-исследователями Чаттопадхьяй использовал этот факт в своих интересах для разработки AEGIS, самого первого метода обнаружения бэкдора для надежных моделей, обученных ПГД. Используя t-распределенное стохастическое встраивание соседей (t-SNE) и кластеризацию среднего сдвига в качестве метода уменьшения размерности и метода кластеризации, соответственно, AEGIS может обнаруживать несколько представлений признаков в классе и идентифицировать модели, зараженные бэкдором.
AEGIS работает в пять этапов: (1) использует алгоритм для генерации переведенных изображений, (2) извлекает представления признаков из чистого обучения и чистых/переведенных изображений, (3) уменьшает размеры извлеченных признаков с помощью t-SNE, (4) использует сдвиг среднего значения для вычисления кластеров уменьшенных представлений признаков и (5) подсчитывает эти кластеры, чтобы определить, заражена ли модель бэкдором или чиста.
Если в модели есть два кластера (обучающие изображения и переведенные изображения), то AEGIS помечает эту модель как чистую. Если кластеров более двух (обучающие образы, чистые переведенные изображения и отравленные переведенные изображения), AEGIS помечает эту модель как подозрительную и зараженную бэкдором.
Кроме того, AEGIS эффективно обнаружил 91,6% всех надежных моделей, зараженных бэкдором, с частотой ложных срабатываний всего 11,1%, что свидетельствует о его высокой эффективности. Поскольку даже верхний метод обнаружения бэкдоров в стандартных моделях не может помечать бэкдоры в надежных моделях, разработка AEGIS имеет важное значение. Важно отметить, что AEGIS специализируется на обнаружении бэкдор-атак в надежных моделях и неэффективен в стандартных моделях.
Помимо способности обнаруживать бэкдор-атаки в надежных моделях, AEGIS также эффективен. По сравнению со стандартными средствами защиты бэкдора, которым требуется от нескольких часов до нескольких дней для идентификации модели, зараженной бэкдором, AEGIS занимает в среднем от пяти до девяти минут. В будущем Chattopadhyay стремится к дальнейшему совершенствованию AEGIS, чтобы он мог работать с различными и более сложными распределениями данных для защиты от большего количества моделей угроз, помимо бэкдор-атак.
Признавая ажиотаж вокруг искусственного интеллекта (ИИ) в сегодняшних условиях, Чаттопадхьяй сказал: «Мы надеемся, что люди знают о рисках, связанных с ИИ. Технологии, основанные на LLM, такие как ChatGPT, находятся в тренде, но существуют огромные риски, и бэкдор-атаки — лишь один из них. С помощью наших исследований мы стремимся добиться внедрения заслуживающего доверия ИИ».
Подробнее: Ezekiel Soremekun et al, Towards Backdoor Attacks and Defense in Robust Machine Learning Models, Computers & Security (2023). DOI: 10.1016/j.cose.2023.103101 🔗
Нашли ошибку в тексте? Напишите нам.