Добавление аудио данных для обучения роботов
Вытирать оценку.UP: разные тестовые сценарии.Внизу: типичные случаи сбоев и показатель успеха задачи.[Только видение] Политика часто не может поддерживать надлежащий контакт (например, либо слишком сильно нажимайте в широкий или плавающий).[MLP Fusion] Политика часто не может полностью уничтожить рисунок и заканчивать рано.Кредит: Arxiv (2024).Doi: 10.48550/arxiv.2406.19464
Исследователи отметили, что практически все тренировки, проведенные с помощью роботов на основе искусственного интеллекта, включают в себя воздействие их на большого количества визуальной информации, игнорируя при этом ассоциированное аудио.Они задавались вопросом, может ли добавление микрофонов к роботам и позволить им собирать данные о том, как что -то должно звучать так, как это делается, помочь им лучше изучить задачу.
Например, если робот должен научиться открывать коробку с хлопьями и заполнить миску, может быть полезно услышать звуки открытой коробки и сухость хлопьеПолемЧтобы выяснить, команда разработала и проводила четыре эксперименты по обучению роботами.
Первый эксперимент включал в себя обучение робота перевернуть бублик на сковороде, используя лопаточку.Второй включал обучение робота использовать ластик, чтобы стереть изображение на белой доске.Третий был залил кубики, удерживаемые в чашке в другую чашку, а четвертый должен был выбрать правильный размер ленты из трех доступных образцов и использовать его для записи провода к пластиковой полосе.
Все эксперименты, связанные с использованием одного и того же робота, оснащенного схватывающимся когтями.Все они также были сделаны двумя способами, используя только видео и используя видео и аудио.Исследовательская группа также различала факторы обучения и производительности, такие как высота таблицы, тип ленты или вид изображения на белой доске.
После проведения всех своих экспериментов исследователи сравнивали результаты, оценив, насколько быстро и легко роботы смогли изучать и выполнять задачи, а также их точность.Они обнаружили, что добавление звука значительно улучшило скорость и точность с помощью некоторых задач, но не других.
Например, добавление звука в задачу наличия кубиков значительно улучшило способность робота выяснить, были ли в чашке какие -либо кубики.Это также помогло роботу понять, оказывал ли он правильное количество давления на ластик из -за уникального звука, который был изготовлен.Добавление звука не очень помогло, с другой стороны, при определении того, был ли бублик успешно повернут, или все изображение было успешно удалено с белой доски.
Команда заканчивается, предполагая, что их работа показывает, что добавление аудио в учебные материалы для роботов искусственного интеллекта может дать лучшие результаты для некоторых приложений.
More information: Zeyi Liu et al, ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data, arXiv (2024). DOI: 10.48550/arxiv.2406.19464
Страница проекта: mani-wav.github.io/
Нашли ошибку в тексте? Напишите нам.