ИИ басист: видение Sony для новой парадигмы в производстве музыки
Кредит: Stefan Lattner (Dall-E)
Инструменты генеративного искусственного интеллекта (ИИ) становятся все более продвинутыми и в настоящее время используются для производства различного персонализированного контента, включая изображения, видео, логотипы и аудиозаписи.Исследователи в Sony Compurth Science Laboratories (CSL) недавно работали над инструментами для продюсеров и артистов, которые могут помочь им в создании новой музыки.
В недавней статье, опубликованной на сервере Arxiv Preprint, исследователь Марко Пасини и его коллеги Стефан Латтнер и Мартен Грахтен в Sony CSL представили новую модель скрытой диффузии, которая может создать реалистичные и эффективные басовые аккомпанименты для музыкальных треков.Диффузионные модели - это методы глубокого обучения, которые могут научиться генерировать изображения, аудио или другие образцы, которые отражают общую структуру, лежащую в основе набора данных.
«Musical Audio Generation в настоящее время является популярной темой исследования, когда многие институты, компании и стартапы изучают различные варианты использования»,-сказал соавтор Латтнер Tech Xplore.«В Sony CSL мы стремимся помочь музыкальным артистам и продюсерам в их рабочем процессе, предоставляя инструменты с AI. Однако мы заметили, что наиболее распространенный подход инструментов ИИ, генерирующих полные музыкальные произведения с нуля (часто контролируется только текстовым вводом)не очень интересно для художников ».
Рассматривая ранее предложенные методы поколения музыки, исследователи в Sony CSL обнаружили, что они не являются оптимальными для художников и продюсеров.В частности, они обнаружили, что многие инструменты не позволяют пользователям создавать музыку, выровненную с их уникальными предпочтениями и стилем.
«Художникам требуются инструменты, которые могут приспособиться к их уникальному стилю и могут быть использованы в любой момент их процесса производства музыки», - сказал Латтнер.«Таким образом, генеративный музыкальный инструмент должен быть в состоянии анализировать и учитывать любое промежуточное создание художника при предложении новых звуков».
В своей недавней статье исследователи представили новую модель, которая может автоматически генерировать басовые сопровождения, которые соответствуют стилю и тональности входной музыкальной дорожки, независимо от элементов, которые он содержит (то есть вокал, гитара, барабаны и т. Д.).Их предложенный инструмент был разработан для создания резких баслина, которые хорошо дополняют песни, помогая продюсерам и артистам в их творческом процессе.
«Наша система может обрабатывать любой тип музыкального микса, который содержит один или несколько источников, таких как вокал, гитара и т. Д.», - объяснил Латтнер.«Он состоит из аудио-автопоодета, который эффективно кодирует микс в сжатое представление, захватывая сущность музыки. Затем это сжатое кодирование используется в качестве входной входной архитектуры, основанной на современной генеративной технологии, называемой генеративной технологией, называемой технологии.«скрытая диффузия».Этот метод генерирует данные в сжатом пространстве, что повышает производительность и качество ».
Латтнер и его коллеги обучили свою скрытую диффузионную модель на наборе данных бас -гитарных кодировки, содержащих различные примеры музыкальных треков.Со временем модель научилась создавать басовую линию, которая «играет вместе» с входной музыкальной дорожкой.
«Наша система имеет уникальное преимущество: она может генерировать когерентные баслины любой длины, в отличие от фиксированных продолжительности», - сказал Латтнер.«Мы также предложили технику, называемую« заземлением стиля », которая позволяет пользователям контролировать Timbre и стиль воспроизведения сгенерированного баса, предоставляя справочный аудиофайл».
Исследователи оценили свою скрытую диффузионную модель в серии тестов и обнаружили, что она может генерировать соответствующие басовые аккомпанементы для произвольных миксов песен.Примечательно, что креативные басы линии, которые он создал, близко соответствовал тональности и ритму входного музыкального микса.
«Мы представили то, что, по нашему мнению, является первой условной моделью скрытой диффузии, разработанной специально для задач генерации на основе звука»,-сказал Латтнер.«Обучив его парным данным миксов и соответствующих бас -линий, модель изучает концепцию музыкальной когерентности».
В будущем новый инструмент генерации басовой линии, созданный Пасини и его коллегами, может быть использован музыкантами, продюсерами и композиторами по всему миру, помогая им писать или улучшить инструментальные части своих треков.Исследователи теперь планируют создавать аналогичные модели, которые создают другие инструментальные элементы, такие как барабаны, фортепиано, гитара, струна и звуковой эффект.
«Благодаря дальнейшей разработке мы представляем креативные инструменты, где пользователи могут настроить бас или другие аккомпанементы, которые они могут легко интегрироваться со своими композициями», - добавил Латтнер.
“Дополнительные направления для будущих исследований включают в себя предоставление дополнительных, интуитивно понятных механизмов управления-в дополнение к аудиосистемам, пользователи могут направлять стиль с помощью текстовых подсказок свободной формы или описательных стилистических тегов. Более широко мы планируем сотрудничать напрямую с художниками и композиторами, чтобы уточнитьДалее и подтвердите эти инструменты для аккомпанемента ИИ, чтобы наилучшим образом улучшить их творческие потребности ».
Больше информации: Marco Pasini и др., GASS Accompanent Generation посредством скрытой диффузии, Arxiv (2024).Doi: 10.48550/arxiv.2402.01412
Нашли ошибку в тексте? Напишите нам.