3 мин. чтения
6/14/2023 6:59:00 AM

Модель, которая может создавать синтетическую речь, соответствующую движениям губ говорящего.

Featured Image Общая блок-схема предложенного командой метода. Предоставлено: Шэн, Ай и Лин

Чтобы решить эту задачу, известную как Lip2Speech, модели машинного обучения, по сути, учатся предсказывать, какие произнесенные слова будут результатом определенных последовательностей движений лица и губ. Автоматизация синтеза речи Lip2Speech может быть полезна для многочисленных вариантов использования, например, для помощи пациентам, которые не могут говорить, для общения с другими, добавления звука в немые фильмы, восстановления речи в зашумленных или поврежденных видео и даже для определения того, что говорят потенциальные преступники на кадрах камер видеонаблюдения.

В то время как некоторые методы машинного обучения для приложений Lip2Speech дали многообещающие результаты, большинство из этих моделей плохо работают в режиме реального времени и не обучаются с использованием так называемых подходов к обучению с нулевым выстрелом (zero shot). Нулевое обучение, по сути, означает, что предварительно обученная модель может эффективно делать прогнозы, связанные с классами данных, с которыми она не сталкивалась во время обучения.

Исследователи из Университета науки и технологий Китая недавно разработали новую модель синтеза Lip2Speech, которая может производить персонализированную синтезированную речь в условиях нулевого выстрела. Этот подход, представленный в статье, опубликованной на сервере препринтов arXiv, основан на вариационном автоэнкодере, генеративной модели, частично основанной на нейронных сетях, которые кодируют и декодируют данные.

Чтобы эффективно решать задачи Lip2Speech в условиях нулевого выстрела, моделям машинного обучения, как правило, необходимо извлекать дополнительную информацию о собеседниках из надежных видеозаписей, на которых они говорят. Однако, если доступны только беззвучные или неразборчивые видеозаписи их разговоров, доступ к такого рода информации невозможен. Модель, созданная этой группой исследователей, может обойти эту проблему, генерируя речь, которая соответствует внешнему виду и личности данного говорящего, не требуя записи фактической речи говорящего.

«Вариационный автоэнкодер используется для распутывания идентичности говорящего и представлений лингвистического контента, что позволяет управлять голосовыми характеристиками синтетической речи. Кроме того, мы предлагаем связанное обучение кросс-модальному представлению, чтобы повысить способность встраивания говорящего на основе лица (FSE) в голосовое управление».

Шэн, Ай и Линг оценили свою модель в серии тестов и обнаружили, что она работает на удивление хорошо, производя синтезированную речь, которая соответствовала как движениям губ говорящего, так и его возрасту, полу и общему внешнему виду. В будущем новая модель может быть использована для создания инструментов для широкого спектра приложений, включая вспомогательные приложения для людей с нарушениями речи, инструменты для редактирования видео и программное обеспечение для помощи в полицейских расследованиях.

Оригинал статьи: Zheng-Yan Sheng et al, Zero-shot personalized lip-to-speech synthesis with face image based voice control, arXiv (2023).

DOI: 10.48550/arxiv.2305.14359 🔗

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Самая страшная тайна ИИ

7/31/2023 · 3 мин. чтения

Самая страшная тайна ИИ

Исследователи впервые успешно обучили модель машинного обучения в открытом космосе

7/30/2023 · 3 мин. чтения

Исследователи впервые успешно обучили модель машинного обучения в открытом космосе