6 мин. чтения
6/4/2024 10:09:05 AM

Новая техника объединяет данные из разных источников для более эффективных многоцелевых роботов

Article Preview Image Три различных областях данных-моделирование (вверху), робот-телевируются (средняя) и человеческие демонстрации (внизу)-позволяют роботу научиться использовать разные инструменты.Кредит: Массачусетский технологический институт

Существующие роботизированные наборы данных сильно варьируются в модальности - например, включают цветные изображения, в то время как другие состоит из тактильных отпечатков.Данные также могут быть собраны в разных областях, таких как моделирование или человеческие демонстрации.И каждый набор данных может захватить уникальную задачу и среду.

Трудно эффективно включить данные из многих источников в одну модель машинного обучения, поэтому многие методы используют только один тип данных для обучения робота.Но роботы обучались таким образом, с относительно небольшим количеством данных, специфичных для задачи, часто не могут выполнять новые задачи в незнакомых средах.

Стремясь обучать лучших многофункциональных роботов, исследователи MIT разработали метод для объединения нескольких источников данных по доменам, модальностям и задачам, используя тип генеративного ИИ, известного как диффузионные модели.

Они обучают отдельную диффузионную модель для изучения стратегии или политики для выполнения одной задачи, используя один конкретный набор данных.Затем они объединяют политики, изученные диффузионными моделями в общую политику, которая позволяет роботу выполнять несколько задач в различных настройках.

В моделировании и реальных экспериментах этот подход к обучению позволил роботу выполнять несколько задач по использованию инструментов и адаптироваться к новым задачам, которого он не видел во время обучения.Метод, известный как политический состав (POCO), привел к улучшению производительности задач на 20% по сравнению с базовыми методами.

“Решение о разнородности в наборах данных роботизированных данных похожа на проблему с курицей-яйцом. Если мы хотим использовать много данных для обучения общей политики робота, то нам сначала нужны развертываемые роботы, чтобы получить все эти данные. Я думаю, что использование всех гетерогенных данныхПодобно тому, что исследователи сделали с CHATGPT, является важным шагом для области робототехники », - говорит Лируи Ван, аспирант по электротехнике и информатике (EECS) и ведущий автор статьи о Poco, размещенном на сервере Arxiv Preprint.

Среди соавторов Вана-Джиалян Чжао, аспирант машиностроения;Yilun Du, аспирант EECS;Эдвард Адельсон, профессор науки о зрении Джона и Дороти Уилсон на факультете мозга и когнитивных наук и член Лаборатории компьютерного и искусственного интеллекта (CSAIL);и старший автор Расс Тедрак, профессор EECS, аэронавтики и астронавтики Toyota, а также машиностроение, а также член CSAIL.

Исследование будет представлено на конференции «Робототехника: наука и системы», состоявшаяся в Делфте, Нидерланды, 15–19 июля.

Объединение разрозненных наборов данных

Роботизированная политика-это модель машинного обучения, которая принимает входы и использует их для выполнения действия.Один из способов подумать о политике - это стратегия.В случае роботизированной руки эта стратегия может быть траекторией или серией позов, которые перемещают руку, поэтому она поднимает молоток и использует его, чтобы ударить гвоздь.

Наборы данных, используемые для изучения роботизированной политики, обычно невелики и сосредоточены на одной конкретной задаче и среде, например, упаковку предметов в коробки на складе.

«Каждый роботизированный склад генерирует терабайты данных, но он принадлежит только к этой конкретной установке робота, работающей над этими пакетами. Это не идеально, если вы хотите использовать все эти данные для обучения общей машине», - говорит Ван.

Исследователи MIT разработали технику, которая может взять серию более мелких наборов данных, таких как те, которые собраны из многих роботизированных складов, изучать отдельные политики от каждого из них и объединять политику таким образом, чтобы позволить роботу обобщать многие задачи.

Они представляют каждую политику, используя тип генеративной модели ИИ, известной как диффузионная модель.Диффузионные модели, часто используемые для генерации изображений, научитесь создавать новые образцы данных, которые напоминают образцы в учебном наборе данных, итеративно уточняя их вывод.

Но вместо того, чтобы преподавать диффузионную модель для генерации изображений, исследователи учат ее генерировать траекторию для робота.Они делают это, добавляя шум в траектории в учебном наборе данных.Диффузионная модель постепенно удаляет шум и превращает его выход в траекторию.

Этот метод, известный как политика диффузии, ранее была представлена ​​исследователями из MIT, Колумбийского университета и исследовательского института Toyota.Поко создает эту работу по политике диффузии.

Команда обучает каждую диффузионную модель с различным типом набора данных, например, с человеческими видео демонстрациями, а другая, полученная от телеоперации роботизированной руки.

Затем исследователи выполняют взвешенную комбинацию отдельных политик, изученных всеми диффузионными моделями, итеративно усовершенствовав вывод, чтобы комбинированная политика удовлетворяла целям каждой отдельной политики.

Больше, чем сумма его частей

«Одним из преимуществ этого подхода является то, что мы можем объединить политику, чтобы получить максимум из обоих миров. Например, политика, обученная реальным данным данныхЧтобы достичь большего обобщения », - говорит Ван.

Поскольку политики обучаются отдельно, можно смешивать и сопоставить политики диффузии, чтобы достичь лучших результатов для определенной задачи.Пользователь также может добавить данные в новой модальности или домену, обучая дополнительную политику диффузии с этим набором данных, а не запустить весь процесс с нуля.

Исследователи проверили POCO в моделировании и на реальных роботизированных руках, которые выполняли различные задачи инструментов, такие как использование молотка, чтобы ударить гвоздь и перевернуть объект с лопаточкой.Поко привел к улучшению производительности задач на 20% по сравнению с базовыми методами.

«Поразительная вещь заключалась в том, что когда мы закончили настройку и визуализировали ее, мы можем ясно видеть, что составленная траектория выглядит намного лучше, чем один из них по отдельности», - говорит Ван.

В будущем исследователи хотят применить эту технику к задачам с длинными горы, где робот собирает один инструмент, использует его, а затем переключится на другой инструмент.Они также хотят включить более крупные наборы данных о робототехнике для повышения производительности.

«Нам понадобятся все три вида данных, чтобы добиться успеха для робототехники: данные интернета, данные моделирования и реальные данные о роботах. Как эффективно их объединить будет вопросом о миллионе долларов. Поко является надежным шагом на правильном пути»,-говорит говоритДжим Фан, старший научный сотрудник NVIDIA и лидер инициативы AI Agents, который не был связан с этой работой.

More information: Lirui Wang et al, PoCo: Policy Composition from and for Heterogeneous Robot Learning, arXiv (2024). DOI: 10.48550/arxiv.2402.02511

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Полностью съедобный робот может вскоре оказаться на нашей тарелке, говорят ученые

6/15/2024 · 6 мин. чтения

Полностью съедобный робот может вскоре оказаться на нашей тарелке, говорят ученые

Исследователи задаются вопросом, что если вы просто поместите робота на сиденье водителя вместо автоматизации автомобиля?

6/15/2024 · 6 мин. чтения

Исследователи задаются вопросом, что если вы просто поместите робота на сиденье водителя вместо автоматизации автомобиля?