6 мин. чтения
8/2/2024 8:25:14 AM

Исследователи вводят новый подход, позволяющий обучать роботов в моделировании сканированных домашних средств

Article Preview Image С помощью «цифровых близнецов» Риальто, разработанный исследователями MIT Марселем Торном Вилласевилом (слева) и Pulkit Agrawal, может направить робота для практики в моделируемой среде гораздо быстрее, чем если бы он оттащил свои навыки в реальном мире.Кредит: Майк Гримметт/MIT CSAIL

В верхней части многих списков автоматических пожеланий-особенно трудоемкая задача: дела по дому.

Лун многих роботистов готовит правильную аппаратную и программную комбинацию, чтобы машина могла изучать политику «генералиста» (правила и стратегии, которые направляют поведение роботов), которые работают повсюду, при всех условиях.

Реально, хотя, если у вас есть домашний робот, вам, вероятно, не заботится о нем, работая на ваших соседей.Исследователи по информатике и искусственному интеллекту (CSAIL) MIT (CSAIL) решили с учетом этого, попытаться найти решение для легко обучения надежной политике роботов для очень специфических сред.

«Мы стремимся к тому, чтобы роботы выступили исключительно под возмущениями, отвлечениями, различными условиями освещения и изменениями в объектах, все в одной среде», - говорит Марсель Торн Вилласевил, исследователь MIT CSAIL в невероятной лаборатории ИИ и ведущего автора наБумага о работе, которая появляется на сервере препринта arxiv.

«Мы предлагаем метод создания цифровых близнецов на лету, используя последние достижения в области компьютерного зрения. С их телефонами любой может захватить цифровую копию реального мира, и роботы могут обучаться в моделируемой среде намного быстрее, чем реальныеМир, благодаря параллелизации графического процессора.

Риалто, конечно, немного сложнее, чем просто простая волна телефона и (бум!) Домашнего бота на вашем обслуживании.Он начинается с использования вашего устройства для сканирования целевой среды, используя такие инструменты, как Nerfstudio, Arcode или Polycam.Как только сцена будет реконструирована, пользователи могут загрузить его в интерфейс Rialto, чтобы внести подробные корректировки, добавить необходимые соединения роботам и многое другое.

Рафинированная сцена экспортируется и приводится в симулятор.Здесь цель состоит в том, чтобы разработать политику, основанную на реальных действиях и наблюдениях, например, для захвата чашки на стойке.Эти реальные демонстрации воспроизводятся в моделировании, предоставляя некоторые ценные данные для обучения подкреплению.

«Это помогает в создании сильной политики, которая хорошо работает как в моделировании, так и в реальном мире. Увеличенный алгоритм с использованием обучения подкреплению помогает направить этот процесс, чтобы обеспечить эффективность политики при применении за пределами симулятора», - говорит Торн.

Тестирование показало, что Rialto создал сильную политику для различных задач, будь то в контролируемых лабораторных условиях или более непредсказуемых средах реального мира, улучшив 67% по сравнению с имитационным обучением с тем же количеством демонстраций.Задачи включали открытие тостера, помещая книгу на полку, положив тарелку на стойку, поместив кружку на полку, открывая ящик и открыв шкаф.

Для каждой задачи исследователи проверяли эффективность системы под тремя увеличивающимися уровнями сложности: рандомизация объектов, добавление визуальных отвлекающих факторов и применение физических нарушений во время выполнения задач.В сочетании с реальными данными, система превзошла традиционные методы имитационного обучения, особенно в ситуациях с большими визуальными отвлечениями или физическими нарушениями.

«Эти эксперименты показывают, что если мы заботимся о том, чтобы быть очень надежными к одной конкретной среде, лучшая идея состоит в том, чтобы использовать цифровые близнецы вместо того, чтобы пытаться получить надежность с помощью крупномасштабного сбора данных в разнообразных условиях»,-говорит Пулкит Агравал, директор по невероятном ИИЛаборатория, MIT Electrical Engineering and Computer Science (EECS) Доцент профессор MIT CSAIL следователь и старший автор по работе.

Что касается ограничений, в настоящее время Rialto занимает три дня, чтобы быть полностью обученным.Чтобы ускорить это, команда упоминает об улучшении базовых алгоритмов и использовании моделей фундамента.Обучение по моделированию также имеет свои ограничения, и в настоящее время трудно выполнить легкую передачу с рисунком и моделировать деформируемые объекты или жидкости.

Так что же будет дальше для путешествия Риальто?Опираясь на предыдущие усилия, ученые работают над сохранением устойчивости против различных нарушений, одновременно улучшая адаптивность модели к новым средам.

«Нашим следующим усилием является этот подход к использованию предварительно обученных моделей, ускорению учебного процесса, минимизации ввода человека и достижению более широких возможностей обобщения»,-говорит Торн.

«Мы невероятно с энтузиазмом относительно нашей концепции робота-программирования с роботами, где роботы могут автономно сканировать окружающую среду и узнать, как решать конкретные задачи при моделировании. Хотя у нашего текущего метода есть ограничения-такие как требующие нескольких начальных демонстраций.Человек и значительное время для обучения этой политики (до трех дней)-мы рассматриваем это как значительный шаг к достижению «обучения и развертывания роботов на лете»,-говорит Торн.

“Этот подход приближает нас к будущему, когда роботам не понадобится существующая политика, которая охватывает каждый сценарий. Вместо этого они могут быстро изучить новые задачи без обширного взаимодействия в реальном мире. На мой взгляд, это продвижение может ускорить практическое применениеРобототехника намного раньше, чем полагается исключительно на универсальную, всеобъемлющую политику ».

«Чтобы развернуть роботов в реальном мире, исследователи традиционно опираются на такие методы, как имитационное обучение на данных экспертных данных, которые могут быть дорогостоящими или подкрепляющими обучением, что может быть небезопасным», - говорит Зои Чен, доктор философии по вопросам компьютерной науки.Студент Университета Вашингтона, который не участвовал в газете.

«Rialto непосредственно рассматривает как ограничения безопасности реального RL [Robot Learning], так и эффективные ограничения данных для методов обучения, управляемых данными, с его новой реальностью в реальном трубопроводе.

«Этот новый трубопровод не только обеспечивает безопасное и надежное обучение моделированию перед развертыванием реального мира, но и значительно повышает эффективность сбора данных. Rialto может значительно увеличить обучение роботов и позволяет роботам адаптироваться к сложным сценариям реального мирагораздо эффективнее “.

«Моделирование показало впечатляющие возможности для реальных роботов, предоставляя недорогие, возможно, бесконечные данные для политического обучения», - добавляет Мариус Меммел, доктор философии по компьютерным наукам.Студент Университета Вашингтона, который не участвовал в работе.

«Тем не менее, эти методы ограничены несколькими конкретными сценариями, и построение соответствующих моделирования является дорогостоящим и трудоемким. Rialto предоставляет простой в использовании инструмент для реконструкции реальных среде в минутах, а не часами.

«Кроме того, он широко использует собранные демонстрации во время политического обучения, сводит к минимуму бремя для оператора и уменьшает разрыв SIM2Real. Rialto демонстрирует устойчивость к объектным позам и нарушениям, демонстрируя невероятную реальную производительность, не требуя обширного строительства симулятора и сбора данных.”

More information: Marcel Torne et al, Reconciling Reality through Simulation: A Real-to-Sim-to-Real Approach for Robust Manipulation, arXiv (2024). DOI: 10.48550/arxiv.2403.03949

Эта история переиздана любезно предоставлена ​​MIT News (web.mit.edu/newsoffice/), популярный сайт, который охватывает новости о исследованиях, инновациях и преподавании MIT.

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

DeepMind разрабатывает робота, который может играть в любительском уровне пинг-понг

8/10/2024 · 6 мин. чтения

DeepMind разрабатывает робота, который может играть в любительском уровне пинг-понг

Пикотаур - непревзойденный микроробот

8/10/2024 · 6 мин. чтения

Пикотаур - непревзойденный микроробот

*Facebook, Instagram, Meta - запрещенные в РФ организации.