3 мин. чтения
6/15/2023 11:50:00 AM

Google StyleDrop генерирует изображения из текста

Featured Image Google

Да Винчи понадобилось 16 лет, чтобы нарисовать «Мону Лизу». Некоторые говорят, что ему понадобилось 12 лет, чтобы только нарисовать ей губы.

Слухи о том, что причиной был медленный интернет, не соответствуют действительности.

Но да Винчи, эрудит, который пробовал себя в ботанике, инженерии, науке, скульптуре и геологии, а также в живописи, наверняка оценил бы новый трансформер генеративного зрения текста в изображение, разработанный Google Research.

StyleDrop от Google, как описано в статье от 1 июня на сервере препринтов arXiv, позволяет пользователям описывать объекты и указывать художественные стили, которые они хотят включить в сгенерированный вывод.

StyleDrop возвращает изображения, отражающие спецификации пользователя, примерно за три минуты.

«Предлагаемый метод чрезвычайно универсален и фиксирует нюансы и детали пользовательского стиля, такие как цветовые схемы, затенение, шаблоны дизайна, а также локальные и глобальные эффекты», — говорится в отчете Google «StyleDrop: Text-to-Image Generation in Any Style».

StyleDrop также создает типографику, которая точно включает в себя стилистические особенности изображений.

Например, пользователи могут предложить изображение моста, буквы, а затем указать стиль рисунка. Такими стилями могут быть «тающий золотой рендеринг», «деревянная скульптура», «3D-рендеринг», «мультяшный рисунок» или любой другой предпочтительный стиль. Воображение - единственный предел.

Image 1 Google

Затем StyleDrop сгенерирует впечатляющие рендеры объектов с капающим мостом, похожим на Дали, или, возможно, мультяшной версией, а также буквами, включающими те же характеристики.

StyleDrop работает в связи с Google Muse, генеративным трансформером зрения, представленным ранее в этом году, который предлагает замечательную степень фотореализма. Muse был обучен на 3 миллиардах параметров, что обеспечило способность генерировать высококачественные изображения.

Исследователи оценили точность и качество вывода StyleDrop, используя стандартную оценку текста и стиля CLIP, а также отзывы пользователей. Оценки показали, что StyleDrop «убедительно превосходит» другие ведущие методы генерации изображений и текста, включая DreamBooth, Imagen и Stable Diffusion.

Разработчики рассматривают эту программу, которая еще не была выпущена для широкой публики, как неоценимую помощь арт-директорам и графическим дизайнерам, которые могут создавать фотореалистичные изображения определенных продуктов или тем, которые включают текст, отражающий те же цвета, структуру и стиль.

Вместе с тем в докладе признается, что защита авторских прав вызывает озабоченность.

«Мы признаем потенциальные подводные камни, такие как возможность копировать стили отдельных художников без их согласия, и призываем к ответственному использованию нашей технологии», — говорится в отчете.

И какие инструкции Да Винчи использовал бы для StyleDrop? «Нарисуйте привлекательную дворянку, улыбающуюся, но не слишком сильную, сидящую на открытом воздухе с горами на заднем плане. Рисуем в стиле… Да Винчи». Если бы работа была сделана за три минуты — вместо 16 лет — у Леонардо, который любил ботанику, было бы гораздо больше времени, чтобы выйти и понюхать эти розы.

Оригинал статьи: Kihyuk Sohn et al, StyleDrop: Text-to-Image Generation in Any Style, arXiv (2023). DOI: 10.48550/arxiv.2306.00983 🔗

StyleDrop: styledrop.github.io

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Самая страшная тайна ИИ

7/31/2023 · 3 мин. чтения

Самая страшная тайна ИИ

Исследователи впервые успешно обучили модель машинного обучения в открытом космосе

7/30/2023 · 3 мин. чтения

Исследователи впервые успешно обучили модель машинного обучения в открытом космосе