Мультисенсорная платформа для обучения и тестирования домашних роботов
Роботы с искусственным интеллектом становятся все более изощренными и постепенно внедряются в широкий спектр реальных условий, включая торговые центры, аэропорты, больницы и другие общественные места. В будущем эти роботы также могут помогать людям с домашними делами, офисными поручениями и другими утомительными или трудоемкими задачами.
В Sonicverse, агент в окружающей среде может выступать в качестве слушателя для получения направленной информации об источнике звука и выполнения задач, требующих аудиовизуального восприятия. Платформа также оснащена аудиовизуальным интерфейсом виртуальной реальности, который позволяет взаимодействовать между человеком и роботом с помощью голосовых команд. Команда обучила аудиовизуальных навигационных агентов на своем симуляторе и успешно выполнила передачу Sim2Real в реальных условиях, таких как офисная кухня. Предоставлено: Гао и др.
Однако, прежде чем роботы могут быть развернуты в реальных условиях, алгоритмы ИИ, контролирующие их движения и позволяющие им решать конкретные задачи, должны быть обучены и протестированы в моделируемых средах. Хотя в настоящее время существует множество платформ для обучения этих алгоритмов, очень немногие из них учитывают звуки, которые роботы могут обнаруживать и взаимодействовать с ними при выполнении задач.
Команда исследователей из Стэнфордского университета недавно создала Sonicverse, смоделированную среду для обучения воплощенных агентов ИИ (то есть роботов), которая включает в себя как визуальные, так и слуховые элементы. Эта платформа, представленная в документе, представленном на ICRA 2023 (и в настоящее время доступная на сервере препринтов arXiv), может значительно упростить обучение алгоритмов, предназначенных для реализации в роботах, которые полагаются как на камеры, так и на микрофоны для навигации по окружающей среде.
«В то время как мы, люди, воспринимаем мир, глядя и слушая, очень немногие предыдущие работы были посвящены воплощенному обучению с помощью аудио», — сказал Руохань Гао, один из исследователей, проводивших исследование. «Существующие воплощенные симуляторы искусственного интеллекта либо предполагают, что окружающая среда бесшумна, а агенты не могут обнаруживать звук, либо развертывают аудиовизуальные агенты только в симуляции. Наша цель состояла в том, чтобы представить новую мультисенсорную симуляционную платформу с реалистичной интегрированной аудиовизуальной симуляцией для обучения домашних агентов, которые могут видеть и слышать».
Sonicverse, платформа моделирования, созданная Гао и его коллегами, моделирует как визуальные элементы данной среды, так и звуки, которые агент обнаружит при исследовании этой среды. Исследователи надеялись, что это поможет обучать роботов более эффективно и в более «реалистичных» виртуальных пространствах, улучшая их последующую производительность в реальном мире.
Однако, прежде чем роботы могут быть развернуты в реальных условиях, алгоритмы ИИ, контролирующие их движения и позволяющие им решать конкретные задачи, должны быть обучены и протестированы в моделируемых средах. Хотя в настоящее время существует множество платформ для обучения этих алгоритмов, очень немногие из них учитывают звуки, которые роботы могут обнаруживать и взаимодействовать с ними при выполнении задач.
Команда исследователей из Стэнфордского университета недавно создала Sonicverse, смоделированную среду для обучения воплощенных агентов ИИ (то есть роботов), которая включает в себя как визуальные, так и слуховые элементы. Эта платформа, представленная в документе, представленном на ICRA 2023 (и в настоящее время доступная на сервере препринтов arXiv), может значительно упростить обучение алгоритмов, предназначенных для реализации в роботах, которые полагаются как на камеры, так и на микрофоны для навигации по окружающей среде.
«В то время как мы, люди, воспринимаем мир, глядя и слушая, очень немногие предыдущие работы были посвящены воплощенному обучению с помощью аудио», — сказал Руохань Гао, один из исследователей, проводивших исследование. «Существующие воплощенные симуляторы искусственного интеллекта либо предполагают, что окружающая среда бесшумна, а агенты не могут обнаруживать звук, либо развертывают аудиовизуальные агенты только в симуляции. Наша цель состояла в том, чтобы представить новую мультисенсорную симуляционную платформу с реалистичной интегрированной аудиовизуальной симуляцией для обучения домашних агентов, которые могут видеть и слышать».
Sonicverse, платформа моделирования, созданная Гао и его коллегами, моделирует как визуальные элементы данной среды, так и звуки, которые агент обнаружит при исследовании этой среды. Исследователи надеялись, что это поможет обучать роботов более эффективно и в более «реалистичных» виртуальных пространствах, улучшая их последующую производительность в реальном мире.
Оригинал статьи: Ruohan Gao et al, Sonicverse: A Multisensory Simulation Platform for Embodied Household Agents that See and Hear, arXiv (2023). DOI: 10.48550/arxiv.2306.00923 🔗
Нашли ошибку в тексте? Напишите нам.