Улучшение автоматических моделей обрезки изображений с помощью передовых методов состязания
Многие модели коммерческих обрезков изображения используют карты значимости (также известные как оценка взгляда) для определения наиболее важных областей в изображении.В этом исследовании исследователи разработали инновационные методы, чтобы ввести незаметные шумные возмущения в изображения, что влияет на вывод моделей обрезки.Этот подход направлен на то, чтобы предотвратить необходимые части изображений, такие как информация об авторском праве или водяные знаки, непреднамеренно обрезанные, что способствует справедливости в моделях ИИ.Кредит: Масатомо Йошида / Университет Дошиша
Изображение является важной задачей во многих контекстах, от социальных сетей и электронной коммерции до расширенных приложений компьютерного зрения.Обрезка помогает поддерживать качество изображения, избегая ненужного изменения размера, что может ухудшить изображение и потреблять вычислительные ресурсы.Это также полезно, когда изображение должно соответствовать предопределенному соотношению сторон, например, в миниатюрах.
За последнее десятилетие инженеры по всему миру разработали различные модели машинного обучения (ML) для автоматического обрезки изображений.Эти модели направлены на то, чтобы обрезать входное изображение таким образом, чтобы сохранить его наиболее важные части.
Тем не менее, эти модели могут совершать ошибки и проявлять предубеждения, которые в худшем случае могут подвергнуть пользователей на юридический риск.Например, в 2020 году был подан иск против X (ранее Twitter), потому что его автоматическая функция обрезки скрыла информацию об авторском праве на ретвитированном изображении.
Следовательно, крайне важно понимать причину, по которой модели обрезки изображения ML терпят неудачу, чтобы обучать и использовать их соответствующим образом и избежать таких проблем.
На этом фоне исследовательская группа из Университета Дошиша, Япония, намеревалась разработать новые методы, чтобы создать состязательные примеры для задачи обрезки изображения.
Как объяснено в их статье, опубликованной в IEEE Access 17 июня 2024 года, их методы могут представить незаметные шумные возмущения в изображение, чтобы обмануть модели в области обрезки, которые соответствуют намерениям пользователей, даже если исходная модель пропустила бы ее.
Докторант Масатомо Йошида, первый автор и ведущий исследователь исследования, сказал: «Насколько нам известно, очень мало исследований о состязательных атаках на модели обрезки изображения, поскольку большинство предыдущих исследований были сосредоточены на классификации и обнаружении изображений.Эти модели должны быть уточнены, чтобы убедиться, что они уважают намерения пользователя и максимально устраняют предубеждения при обрезке изображений ».
Масатомо Йошида и Харуто Намура из Высшей школы науки и техники, Университета Дошиша, Киото, Япония и Масахиро Окуда из факультета науки и техники в Университете Дошиша, также были вовлечены в исследование.
Исследователи разработали и внедрили два различных подхода для создания состязательных примеров-подход белого ящика и подход черного ящика.
Метод белого ящика, требующий доступа к внутренней работе целевой модели, включает в себя итеративно вычислять возмущения для входных изображений на основе градиентов модели.
Используя модель прогнозирования взгляда для выявления важных точек в изображении, этот подход манипулирует картами значимости взгляда для достижения эффективных состязательных примеров.Это значительно уменьшает размеры возмущения, достигая минимального размера 62,5% меньше, чем базовые методы в экспериментальном наборе данных изображения.
Подход Black-Box использует байесовскую оптимизацию для эффективного сужения пространства поиска и целевых конкретных областей изображения.Подобно стратегии белого ящика, этот подход включает в себя итерационные процедуры, основанные на картах значимости взгляда.
Вместо того, чтобы использовать внутренние градиенты, он использует структурированную деревьями Parzen оценщику для выбора и оптимизации координат пикселей, которые влияют на значимость взгляда, в конечном итоге создавая желаемые состязательные изображения.Примечательно, что методы черного ящика более широко применимы в реальных сценариях и имеют большую актуальность в контекстах кибербезопасности.
Оба подхода показывают перспективы на основе экспериментальных результатов.Как объясняет аспирант Харуто Намура, участник исследования, «наши результаты показывают, что наши методы не только превосходят существующие методы, но и демонстрируют потенциал в качестве эффективных решений для реальных приложений, таких как на платформах, таких как Twitter».
В целом, это исследование представляет собой значительный прогресс в отношении более надежных систем ИИ, что имеет решающее значение для удовлетворения ожиданий общественности и завоевания их доверия.Повышение эффективности генерирования состязательных примеров для обрезки изображения будет продвигать исследования в ML и вдохновлять решения на свои насущные проблемы.
Профессор Масахиро Окуда, консультант Namura и Yoshida, заключает, «путем выявления уязвимостей во все более развернутых моделях ИИ, наше исследование способствует разработке программных систем ИИ и удовлетворяет растущую потребность в управлении ИИ».
More information: Masatomo Yoshida et al, Adversarial Examples for Image Cropping: Gradient-Based and Bayesian-Optimized Approaches for Effective Adversarial Attack, IEEE Access (2024). DOI: 10.1109/ACCESS.2024.3415356
Нашли ошибку в тексте? Напишите нам.