Интерактивная 3D-манипуляция 2D-изображениями с помощью AI
Наш подход DragGAN позволяет пользователям «перетаскивать» содержимое любых изображений, сгенерированных GAN. Пользователям нужно всего лишь щелкнуть несколько точек маркера (красный) и целевых точек (синий) на изображении, и наш подход переместит точки маркера, чтобы точно достичь соответствующих целевых точек. При желании пользователи могут нарисовать маску гибкой области (более яркую область), сохраняя остальную часть изображения фиксированной. Эта гибкая точечная манипуляция позволяет управлять многими пространственными атрибутами, такими как поза, форма, выражение и расположение в различных категориях объектов. Предоставлено: arXiv (2023). DOI: 10.48550/arxiv.2305.10973
Команда ученых-компьютерщиков из Института информатики Макса Планка, Массачусетского технологического института, Google и Университета Пенсильвании разработала новый инструмент визуализации ИИ для интерактивных 3D-манипуляций с 2D-изображениями, изображенными на фотографии. Команда опубликовала документ, описывающий новый инструмент, который называется DragGAN, на сервере препринтов arXiv вместе с короткими видеороликами, показывающими, на что способен инструмент.
Photoshop был впервые выпущен еще в конце 1980-х годов, и с тех пор он и подобные приложения используются для редактирования фотографий. Такое использование стало стандартной частью социальных сетей — люди фотошопят изображения, прежде чем публиковать их в Интернете, чтобы «улучшить» их. В этой новой работе исследовательская группа вывела редактирование изображений на совершенно новый уровень, добавив искусственный интеллект.
На первый взгляд DragGAN очень похож на любой другой инструмент для работы с изображениями. Но видеоролики, опубликованные творческой группой, разъясняют, что он способен делать то, к чему ни одно предыдущее приложение даже близко не приближалось, позволяя пользователям изменять изображения в воображаемом 3D на лету. Исследователи называют результаты «галлюцинированным окклюзированным содержимым».
🔗 Предоставлено: arXiv (2023). DOI: 10.48550/arxiv.2305.10973
Фотографии по самой своей природе двумерны. Предыдущие инструменты редактирования фотографий позволяли размывать, раскрашивать или даже исправлять другие изображения. Но все такое редактирование основано на усилиях пользователя — пользователь должен направлять цветокоррекцию или разглаживать морщины. Инструмент для редактирования фотографий на основе искусственного интеллекта, обученный распознавать особенности путем анализа тысяч или миллионов других изображений, может сделать вывод о том, как могут выглядеть недостающие части изображения, и внести изменения на основе этого с подсказкой пользователя.
Например, в одном видео фотографию разгневанного человека можно изменить, чтобы показать улыбающегося того же человека — и все это одним щелчком мыши и перетаскиванием. Лицо человека также можно повернуть, обнажив части головы, которые никогда не были запечатлены на оригинальной фотографии. Точно так же автомобили, животные или пейзажи могут быть радикально изменены с помощью всего нескольких щелчков мышью и перетаскивания. Добавление искусственного интеллекта к редактированию фотографий добавляет совершенно новое измерение в категорию, которое может произвести такой же большой фурор, как Photoshop, когда он был впервые представлен.
Оригинал статьи: Xingang Pan et al, Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold, arXiv (2023). DOI: 10.48550/arxiv.2305.10973 DOI: 10.48550/arxiv.2305.10973 🔗
Нашли ошибку в тексте? Напишите нам.