2 мин. чтения
4/20/2024 10:54:01 AM

Microsoft Vasa-1 делает фотографии и поет с правдоподобными выражениями лица

Article Preview Image Учитывая единственное портретное изображение, речевой аудиоклип и, необязательно, набор других управляющих сигналов, наш подход создает высококачественное видео для разговоров с разрешением 512 × 512 со скоростью до 40 кадров в секунду.Метод общий и надежный, и генерируемые говорящие лица могут верно имитировать выражения лица и движения головы человека, достигая высокого уровня реализма и жирности.(Все фотореалистические портретные изображения в этой статье являются виртуальными, не существующими идентичностями.).Кредит: Arxiv (2024).Doi: 10.48550/arxiv.2404.10667

Команда опубликовала статью, описывающую, как они создали приложение на сервере Arxiv Preprint;Образцы видео доступны на странице исследовательского проекта.

Исследовательская группа стремилась анимировать неподвижные изображения, говорящие и петь, используя любую предоставленную аудио -трек, а также демонстрируя правдоподобные выражения лица.Они явно преуспели в разработке VASA-1, системы ИИ, которая превращает статические изображения, будь то камера, нарисованная или окрашенная, в то, что они описывают как «изысканно синхронизированные» анимации.

Группа доказала эффективность своей системы, опубликовав короткие видеоклипы своих результатов теста.В одном, мультипликационная версия Моны Лизы исполняет рэп -песню;В другом фотография женщины была превращена в пение, а в другой - рисунок мужчины вызывает речь.

В каждой из анимации выражения лица меняются вместе со словами, которые подчеркивают то, что говорится.Исследователи также отмечают, что, несмотря на жизненный характер видеороликов, более тщательное осмотр может выявить недостатки и доказательства того, что они были искусственно сгенерированы.

Исследовательская группа достигла своих результатов, обучая свое приложение на тысячи изображений с широким спектром выражений лица.Они также отмечают, что система в настоящее время производит образы 512 на 512 пикселей, работающих со скоростью 45 кадров в секунду.Кроме того, потребовалось в среднем две минуты, чтобы произвести видео с использованием графического процессора NVIDIA RTX 4090 настольного класса.

Исследовательская группа предполагает, что VASA-1 может быть использован для создания чрезвычайно жизни аватаров для игр или симуляций.В то же время они признают потенциал для злоупотреблений и, следовательно, не делают систему доступной для общего использования.

Больше информации: Sicheng Xu et al., VASA-1: Жизненные разговоры, управляемые аудио, генерируемые в режиме реального времени, Arxiv (2024).Doi: 10.48550/arxiv.2404.10667

Страница проекта: www.microsoft.com/en-us/research/project/vasa-1/ 🔗

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Microsoft открывает программное обеспечение, которое позволяет LLMS работать с электронными таблицами

7/17/2024 · 2 мин. чтения

Microsoft открывает программное обеспечение, которое позволяет LLMS работать с электронными таблицами

Программисты разрабатывают способ запуска языковых моделей ИИ без матричных умножений

6/27/2024 · 2 мин. чтения

Программисты разрабатывают способ запуска языковых моделей ИИ без матричных умножений