Sony представляет ИИ для одноинструментного аккомпанемента
Кредит: S. Marino, S. Lattner, Dall-E
В последние десятилетия многие инженеры начали разрабатывать инструменты на основе искусственного интеллекта (ИИ), которые могут поддерживать работу творческих специалистов, ускоряя или улучшая производство различных типов контента.К ним относятся вычислительные модели, которые могут генерировать музыкальные треки и облегчить некоторые аспекты производства музыки.
Исследователи в Sony CSL работали над различными решениями по искусству, предназначенным для того, чтобы помочь музыкантам, музыкантам и другим любителям музыки на протяжении всего их творческих усилий.В недавней статье, опубликованной на сервере Arxiv Preprint, они представили Diff-A-Riff, многообещающую вычислительную модель, которая может генерировать высококачественные инструментальные аккомпанементы для любой музыки.
«Наша недавняя статья основывается на нашем предыдущем исследовании по созданию басовых аккомпанементов», - сказала Tech Xplore музыкальная команда Sony CSL Paris.«В то время как наша предыдущая работа была сосредоточена на создании басовых линий для дополнения существующих треков, Diff-A-Riff расширяет эту концепцию, чтобы генерировать однопоставленные аккомпанементы любого типа инструмента».
«Эта эволюция была вдохновлена практическими потребностями продюсеров и артистов музыки, которые часто ищут инструменты для улучшения своих существующих композиций, добавляя дополнительные инструменты, и их желанием быть гибкими в отношении типов инструментов/тембров».
Основной целью недавней работы музыкальной команды в Sony CSL Paris было создание универсальной системы ИИ, которая может генерировать высококачественные инструментальные аккомпанементы, которые плавно интегрируются с данным музыкальным контекстом, сосредоточившись на одном инструменте за раз.Разработанный ими инструмент основан на двух различных и мощных методах глубокого обучения: скрытые диффузионные модели и автоматические конбоковиры.
«Diff-A-Riff использует мощь моделей скрытых диффузии и консистенции автоэкодоров для генерации инструментальных аккомпанементов, которые соответствуют стилю и тональности данного музыкального контекста»,-пояснили они.
«Система сначала сжимает входной аудио в скрытое представление с использованием предварительно обученного консистенсорного автоматического модера, кодека, разработанного собственным домом, который гарантирует высококачественную декодирование через генеративный декодер. Это сжатое представление затем подается в нашу скрытую диффузионную модель,,который генерирует новый звук в скрытом пространстве, обусловленных в входном контексте и необязательных ссылках на стиль из текста или аудио встраивания ».
Diff-A-Riff имеет многочисленные преимущества по сравнению с другими инструментами для генерации инструментальных аккомпанементов.Первым является его универсальный элемент управления, который позволяет пользователям поддерживать как аудио, так и текстовые подсказки, предлагая им большую гибкость в руководстве генерацией аккомпанементов.Кроме того, Diff-A-Riff производит высококачественные результаты, а псевдо-стерео звук 48 кГц.
«Diff-A-Riff также значительно сокращает время вывода и использование памяти по сравнению с предыдущими системами, поскольку мы используем 64-кратный коэффициент сжатия»,-пояснила команда.«Мы обнаружили, что он может генерировать аккомпанементы для любого музыкального контекста, что делает его ценным инструментом для продюсеров и артистов музыки.
«Более того, он оснащен дополнительными элементами управления, такими как интерполяция между ссылками на прибор и текстовыми подсказками, определение стерео-ширины и возможность создания плавных переходов для петли».
Музыкальная команда Sony CSL оценила свою модель в серии тестов.Их выводы были очень многообещающими, поскольку модель создала высококачественные инструментальные аккомпанементы для различных музыкальных треков, которые человеческие слушатели не смогли отличить от записанных аккомпанементов, в которых играют человеческие музыканты.
«Скорость генерации три секунды за одну минуту звука беспрецедентна и достигается высоким коэффициентом сжатия AutoEncoder согласованности», - сказали они.«В реальных сценариях Diff-A-Riff может быть применен к производству музыки, творческому сотрудничеству и звуковому дизайну».
Инструментальный инструмент генерации аккомпанементов, разработанный в Sony CSL, может вскоре использовать продюсеры музыки по всему миру, что позволяет им создавать инструментальные треки, которые дополняют их существующие композиции.Diff-A-Riff также может быть использован артистами для легкости изучения новых музыкальных идей или звукозащитников для быстрого тестирования различных тембров или стилей игры для своих проектов.
«Наши будущие планы исследований включают в себя расширение возможностей Diff-A-Riff путем улучшения механизмов управления и изучения новых способов интеграции модели в различные этапы процесса производства музыки»,-добавила команда.
«Мы стремимся предоставить еще более интуитивно понятные входные данные, чтобы сделать модель более доступной и полезной для художников, включая любителей и специалистов. Кроме того, мы планируем сотрудничать с музыкантами и композиторами для дальнейшего уточнения и проверки наших моделей, обеспечивая их практические потребностиПользователи в музыкальной индустрии ».
More information: Javier Nistal et al, Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models, arXiv (2024). DOI: 10.48550/arxiv.2406.08384
Больше изображений и аудио, доступных по адресу: sonycslparis.github.io/diffariff-companion/
Нашли ошибку в тексте? Напишите нам.