Создание художественных коллажей с использованием обучения с подкреплением
«Цветное лицо», сделанное из газет, исходное изображение от pixabay.com/photos/girl-face-colorfuls-artistic-2696947.Кредит: Dai et al.
«Коллаж-искусство требует высокого мастерства человека, и мы задавались вопросом, как будут выглядеть искусства коллаж, созданные AI»,-сказали авторы Tech Xplore по электронной почте »,« существующие инструменты генерации изображений ИИ, такие как Dall-E или Stablediffusion, уже могут генерировать изображения коллаж, но ониэто просто «введенные коллажные» из пикселей, а не настоящий коллаж от выполнения реальных шагов коллажных произведений, что мы хотели сделать,-это обучить ИИ создавать «настоящий коллаж» ».
В предыдущем исследовании, посвященном поколению живописи, исследователи использовали обучение подкреплению (RL), чтобы научить ИИ нарисовать следующие шаги, аналогичные тем, которые следовали люди.Затем они начали задаваться вопросом, можно ли это также достигнуто для создания коллажей, и начали работать над их подкреплением, основанным на создании автономного коллажного генератора.
Таким образом, основной целью их недавней статьи было обучение агента искусственного интеллекта для создания коллажей, которые похожи на целевые изображения (например, картины, фотографии и т. Д.), Как можно более разрывая и вставая на несколько материалов, используя обучение подкрепления.Эти коллажи будут созданы с использованием набора материалов, предоставленных людьми.
«Наша модель RL должна заставить агента понять, что такое коллаж и как это сделать хорошо», - объяснили авторы.«Поскольку RL в основном требует много испытаний и ошибок, модель должна получить опыт взаимодействия с холстом и создавать фактический коллаж».
Поскольку коллажи изготовлены из различных отходов материалов, для эффективного создания этих произведений искусства, агенту сначала необходимо проверить различные варианты вырезания и вставки, чтобы в конечном итоге определить, какие материалы производят коллаж, который наилучшим образом напоминает целевые изображения.Исследователи обнаружили, что изначально их модель выполнялась очень плохо, но со временем ее навыки значительно улучшились.
«Агент RL учится увеличить награду, где награда определяется как улучшение сходства между их холстом и целевым изображением», - сказали авторы.«Функция вознаграждения также продолжает развиваться с течением времени, научившись лучше оценивать сходство между коллажом из агента и целевым изображением».
Во время обучения модель исследователей питалась случайным образом распределенным случайным изображением и попыталась создать коллаж, воспроизводя это изображение на белом холсте.На каждом этапе коллажа агент выбирает случайный материал между доступными параметрами и выбирает, как его разрезать, ломать его и вставить на холст.
«Поскольку целевые изображения и материалы случайным образом даются при обучении, агент становится способным иметь дело с любыми целями и материалами на более позднем этапе», - сказали авторы.«Весь этот процесс немного сложный для использования существующего RL без модели, поэтому мы разработали среду дифференцируемой коллажи, чтобы позволить агенту легко отслеживать динамику коллажа. Это позволило нам применять RL на основе моделей и повысить производительность».
Схема обучения RL на основе моделей, разработанная исследователями, черпает вдохновение из предыдущей работы о картинах на основе RL.Тем не менее, команда разработала свой собственный алгоритм RL на основе моделей, который касался динамики, связанной с созданием коллажей, которые являются более сложными, чем те, которые лежат в основе живописи.
«В то время как живопись использует предопределенный мазки, коллаж должен наблюдать, как выглядит данное материал, и выяснить, как манипулировать им, чтобы сделать правильный фрагмент изображения для общего коллажа, понимая форму, текстуру, цвета и координаты», - сказали авторыПолем«Поскольку SAC позволяет агенту более эффективно испытывать разнообразные действия в пространстве непрерывных действий, чем DDPG, который использовался в картинах, SAC соответствует нашему случаю».
Чтобы эффективно генерировать коллажи, авторы использовали свою обученную модель в качестве частичного генератора коллажей.Было обнаружено, что этот блок производит коллажи с высоким разрешением, которые очень похожи на различные целевые изображения.
«Мы также разработали модуль для анализа сложности целевого изображения, чтобы назначить большую рабочую нагрузку для частичного генератора коллажей в место, где сложность высока», - пояснил Ли.«Этот модуль может улучшить эстетическое качество коллажей».
Важным преимуществом архитектуры команды является то, что она не требует каких -либо образцов коллажей и демонстрационных данных, поскольку она просто обучена, используя примеры материалов и целевых изображений.Примечательно, что эти материалы и изображения гораздо проще собирать, чем оригинальные произведения искусства.
«Без художественных данных или знаний агент независимо научился сделать коллаж», - сказали авторы.«Окончательная способность к коллажению была сделана собственным исследованием агента, которое является заметным выводом этой работы; она показывает могущественную способность RL в качестве домена обучения без данных».
Поскольку обученная модель команды постепенно захватывала процесс создания коллажей, она может хорошо обобщать широкий спектр изображений и сценариев.До сих пор он был проверен только в симуляциях.Однако, если она применяется к гуманоидному роботу или роботизированной руке, модель также может обеспечить «чертежи» для создания физических коллажей.
«Создание среды, в которой агент RL может учиться должным образом, было очень сложно», - сказали авторы.«Мы потратили много времени на разработку и определение динамики коллажей и действий, которые являются законными для RL. Кроме того, чтобы сэкономить время на обучении, мы должны сохранить их как можно более компактные и эффективные. Еще больше, мы должны были сохранить динамику для нашейСхема RL на основе моделей также. ”
Поскольку искусство очень субъективно, оценка качества коллажей, произведенных моделью, является сложной задачей.Исследователи изначально провели исследование пользователя, просяв различных участников человека поделиться своим мнением и отзывы о коллажах, созданных A-A-A-Create.
«Мы провели исследование пользователя, но этого может быть недостаточно», - сказали авторы.«После долгих рассмотрений для более объективной оценки мы решили использовать CLIP, большую предварительно обученную модель на языке зрения. Поскольку клип обучен примерно на 400 м.. С помощью пользовательского изучения и клипа мы сравнили нашу модель с другими моделями генерации на основе пикселей, оценивая сгенерированные изображения и согласованность содержимого ».
Пользовательское исследование и оценка на основе клипов, проведенные исследователями, дали аналогичные результаты.В обоих этих тестах было обнаружено, что новая модель превосходит другие модели для генерации коллажей.
Модель, представленная в этой недавней статье, может вскоре быть разработана дальше и протестирована, чтобы позволить индивидуальные стили, используя более широкий спектр изображений и материалов.Кроме того, работа команды может вдохновить на разработку дополнительных инструментов искусственного интеллекта для создания различных типов произведений искусства.
«Сейчас мы заинтересованы в разработке стратегий, которые позволяют нашим моделям справляться с различными предпочтениями в стиле», - сказал авторы.«В качестве будущей работы мы рассмотрим разработку пользовательского интерфейса, который может отражать предпочтения пользователя во время создания коллажей нашей модели».
Больше информации: Ganghun Lee et al.Doi: 10.48550/arxiv.2311.02202
Гангун Ли и др., С нуля до эскиза: глубоко отделенное иерархическое обучение подкреплению для роботизированного агента по надзору, 2022 Международная конференция по робототехнике и автоматизации (ICRA) (2022).Doi: 10.1109/icra46639.2022.9811858
Нашли ошибку в тексте? Напишите нам.