Фреймворк для повышения безопасности сетей генерации text-2-image
Обзор скрытой гвардии.Во -первых, команда собрала набор данных безопасных и небезопасных подсказок, сосредоточенных вокруг концепций с черным списком (слева).Затем они использовали предварительно обученные текстовые энкодеры для извлечения функций и отображают их в ученый скрытый пространство с их слоем встраивания (в центре).Только встроенный картирующий слой обучается, в то время как все остальные параметры остаются замороженными.Команда обучила его, наложив контрастную потерю на извлеченное встроение, приблизив вторжения небезопасных подсказок/концепций, отделяя их от безопасных (справа).Кредит: Liu et al.
Инструменты T2I искусственного интеллекта (AI), такие как Dall-E 3 и стабильная диффузия, представляют собой модели на основе глубокого обучения, которые могут генерировать реалистичные изображения, выровненные с текстовыми описаниями или пользовательскими подсказками.Хотя эти инструменты ИИ становятся все более распространенными, их неправильное использование представляет значительные риски, начиная от нарушений конфиденциальности до разжигания дезинформации или манипуляции с изображением.
Исследователи из Гонконгового университета науки и технологий и Оксфордского университета недавно разработали Латентную гвардию, структуру, предназначенную для повышения безопасности генеративных сетей T2I.Их структура, изложенная в статье, предварительно опубликованной на ARXIV, может предотвратить генерацию нежелательного или неэтичного контента, обрабатывая подсказки пользователей и обнаружая наличие любых концепций, которые включены в обновляемый черный список.
«Благодаря возможности генерировать высококачественные изображения, модели T2I могут быть использованы для создания неподходящего контента»,-написали Runtao Liu, Ashkan Khakzar и их коллеги в своей статье.
«Чтобы предотвратить неправильное использование, существующие меры безопасности основаны либо на текстовых черных списках, которые можно легко обойти или классифицировать вредного контента, требуя больших наборов данных для обучения и обеспечения низкой гибкости. Следовательно, мы предлагаем скрытую гвардию, структуру, предназначенную для улучшения мер безопасности.в поколении T2I. ”
Латентная гвардия, рамка, разработанная Лю, Хакзаром и их коллегами, черпает вдохновение из предыдущих подходов, основанных на черном списке для повышения безопасности генеративных сетей T2I.Эти подходы по сути состоят в создании списков «запрещенных» слов, которые не могут быть включены в пользовательские подсказки, что ограничивает неэтичное использование этих сетей.
Ограничение большинства существующих методов, основанных на черном списке, состоит в том, что вредоносные пользователи могут обойти их, перефразируя их подсказку, воздерживаясь от использования слов с черным списком.Это означает, что в конечном итоге они могут по -прежнему в состоянии создать оскорбительный или неэтичный контент, который они хотят создать и потенциально распространять.
Чтобы преодолеть это ограничение, структура скрытой гвардии выходит за рамки точной формулировки входных текстов или пользовательских подсказок, извлечения функций из текстов и картирования их на ранее изученное скрытое пространство.Это укрепляет его способность обнаруживать нежелательные подсказки, предотвращая генерацию изображений для этих подсказок.
«Вдохновленные подходами, основанными на черном списке, Litent Guard изучает скрытое пространство на вершине текстового энкодера модели T2I, где можно проверить наличие вредных концепций во вставках входного текста»,-пишет Лю, Хакзар и их коллеги.
«Наша предлагаемая структура состоит из трубопровода генерации данных, специфичного для задачи, используя крупные языковые модели, специальные архитектурные компоненты и стратегию контрастного обучения, чтобы извлечь выгоду из полученных данных».
Лю, Хакзар и их сотрудники оценили свой подход в серии экспериментов, используя три различных набора данных и сравнивая его производительность с четырьмя другими базовыми методами генерации T2I.Один из наборов данных, которые они использовали, а именно набор данных Copro, был разработан их командой специально для этого исследования и содержал в общей сложности 176 516 безопасных и небезопасных/неэтичных текстовых подсказок.
«Наши эксперименты демонстрируют, что наш подход обеспечивает надежное обнаружение небезопасных подсказок во многих сценариях и предлагает хорошие результаты обобщения в различных наборах данных и концепциях», - пишют исследователи.
Первоначальные результаты, собранные Лю, Хакзаром и их коллегами, предполагают, что Латентная охрана является очень многообещающим подходом для повышения безопасности сетей генерации T2I, снижая риск того, что эти сети будут использоваться ненадлежащим образом.Команда планирует вскоре опубликовать как базовый код своей структуры, так и набор данных Copro на GitHub, позволяя другим разработчикам и исследовательским группам экспериментировать с их подходом.
Больше информации: Runtao Liu et al., Скрытая гвардия: основа безопасности для генерации текста до изображения, Arxiv (2024).Doi: 10.48550/arxiv.2404.08031
Нашли ошибку в тексте? Напишите нам.