Google StyleDrop генерирует изображения из текста
Да Винчи понадобилось 16 лет, чтобы нарисовать «Мону Лизу». Некоторые говорят, что ему понадобилось 12 лет, чтобы только нарисовать ей губы.
Слухи о том, что причиной был медленный интернет, не соответствуют действительности.
Но да Винчи, эрудит, который пробовал себя в ботанике, инженерии, науке, скульптуре и геологии, а также в живописи, наверняка оценил бы новый трансформер генеративного зрения текста в изображение, разработанный Google Research.
StyleDrop от Google, как описано в статье от 1 июня на сервере препринтов arXiv, позволяет пользователям описывать объекты и указывать художественные стили, которые они хотят включить в сгенерированный вывод.
StyleDrop возвращает изображения, отражающие спецификации пользователя, примерно за три минуты.
«Предлагаемый метод чрезвычайно универсален и фиксирует нюансы и детали пользовательского стиля, такие как цветовые схемы, затенение, шаблоны дизайна, а также локальные и глобальные эффекты», — говорится в отчете Google «StyleDrop: Text-to-Image Generation in Any Style».
StyleDrop также создает типографику, которая точно включает в себя стилистические особенности изображений.
Например, пользователи могут предложить изображение моста, буквы, а затем указать стиль рисунка. Такими стилями могут быть «тающий золотой рендеринг», «деревянная скульптура», «3D-рендеринг», «мультяшный рисунок» или любой другой предпочтительный стиль. Воображение - единственный предел.
Затем StyleDrop сгенерирует впечатляющие рендеры объектов с капающим мостом, похожим на Дали, или, возможно, мультяшной версией, а также буквами, включающими те же характеристики.
StyleDrop работает в связи с Google Muse, генеративным трансформером зрения, представленным ранее в этом году, который предлагает замечательную степень фотореализма. Muse был обучен на 3 миллиардах параметров, что обеспечило способность генерировать высококачественные изображения.
Исследователи оценили точность и качество вывода StyleDrop, используя стандартную оценку текста и стиля CLIP, а также отзывы пользователей. Оценки показали, что StyleDrop «убедительно превосходит» другие ведущие методы генерации изображений и текста, включая DreamBooth, Imagen и Stable Diffusion.
Разработчики рассматривают эту программу, которая еще не была выпущена для широкой публики, как неоценимую помощь арт-директорам и графическим дизайнерам, которые могут создавать фотореалистичные изображения определенных продуктов или тем, которые включают текст, отражающий те же цвета, структуру и стиль.
Вместе с тем в докладе признается, что защита авторских прав вызывает озабоченность.
«Мы признаем потенциальные подводные камни, такие как возможность копировать стили отдельных художников без их согласия, и призываем к ответственному использованию нашей технологии», — говорится в отчете.
И какие инструкции Да Винчи использовал бы для StyleDrop? «Нарисуйте привлекательную дворянку, улыбающуюся, но не слишком сильную, сидящую на открытом воздухе с горами на заднем плане. Рисуем в стиле… Да Винчи». Если бы работа была сделана за три минуты — вместо 16 лет — у Леонардо, который любил ботанику, было бы гораздо больше времени, чтобы выйти и понюхать эти розы.
Оригинал статьи: Kihyuk Sohn et al, StyleDrop: Text-to-Image Generation in Any Style, arXiv (2023). DOI: 10.48550/arxiv.2306.00983 🔗
StyleDrop: styledrop.github.io
Нашли ошибку в тексте? Напишите нам.