Обобщенная модель с открытым исходным кодом для манипуляторов
Это роботы, на которых мы протестировали OCTO - вы можете видеть, что существует широкий спектр различных рук робота, от маленького до крупного, единственного рук до бимануального.OCTO смог контролировать всех этих роботов.Кредит: Team et al.
Исследователи из Калифорнийского университета, Беркли (UC Berkeley), Стэнфордский университет и CMU недавно представили OCTO, модель генералиста с открытым исходным кодом для роботизированных манипуляций, которая может позволить различным роботизированным системам эффективно манипулировать широким спектром объектов.Эта модель, представленная в бумаге, предварительно опубликованной на сервере ARXIV, может открыть новые возможности для разработки роботов, которые могут выполнять ручные задачи.
«Большая часть текущего прогресса в ИИ обусловлена большими наборами данных и большими моделями», - сказал Dibya Ghosh, Гомер Уолке, Карл Пертч, Кевин Блэк и Ойер Мис.«В сообществе робототехники мы недавно собрали открытый набор данных x-Embodiment, большой набор данных манипуляции, который объединяет данные из многих исследовательских учреждений. Хотя этот новый набор данных является действительно захватывающим ресурсом, в то время не было много моделей, которые могли бы сделатьИспользование этого еще “.
Недавняя работа этой исследовательской группы имела две основные цели.Первым было разработать хорошую модель робототехники, которую можно было бы применить к различным роботам, а вторая-создать код с открытым исходным кодом, который позволит другим исследователям создавать аналогичные модели в будущем.
«OCTO - это то, что мы называем моделью робота« генералиста », нейронной сетью, которая может контролировать множество различных типов роботов и сделать их выполнять запросы, такие как« Подними ложку »,« Закройте ящик »,« вытирайте стол »и т. Д., «Гош, Уолке, Пертч, Блэк и Мис объяснили.
«Быть универсальным и работать над многими роботами является ключевым ключом, потому что, если вы посмотрите на исследовательские лаборатории по всему миру, многие из них используют разные роботы, поэтому единственный способ гарантировать, что OCTO может использоваться многими исследователями, - поддерживать широкий спектрроботы. ”
В рамках сообщества технологических исследований и разработок высокопроизводительных вычислительных инструментов, которые можно применять в нескольких системах, часто называют основополагающими моделями.Примером этих моделей является CHATGPT, который можно использовать для оборудования различных агентов и систем с возможностями обработки естественного языка (NLP).
«Мы хотим создать аналогичные модели фундамента, но для управления роботами или, другими словами, модели, которые могут контролировать многих роботов, и заставлять их решать много разных задач», - сказал Гош, Уолк, Пертч, Блэк и Мис.
«OCTO - первый шаг к этой цели. Его обучение выглядит очень похоже на такие модели, как CHATGPT: мы курируем большой и разнообразный набор данных, в нашем случае данные о роботах вместо текста, и обучать большую модель, чтобы предсказать следующее действие. Робот долженВыполнить, учитывая текущее состояние робота и инструкция по задании ».
OCTO, модель, разработанная Ghosh, Walke, Pertsch, Black и Mees, основана на том же типе нейронных сетей, что и CHATGPT, известный как трансформаторы.Ключевым преимуществом OCTO по сравнению с другими ранее разработанными моделями робототехники является масштаб данных, используемых для их обучения и его гибкости.
Модель была обучена крупнейшему набору данных о роботизированных траекториях манипуляций, собранных на сегодняшний день;Открытый набор данных X-Embodiment.OCTO также может обрабатывать разнообразные сенсорные входы, включая различные типы изображений, показания совместных роботов, языковые инструкции, связанные с целями изображения и многое другое.
«OCTO может также контролировать множество различных типов роботов, от небольших отдельных рук, которые едва могут поднять газированную банку, более крупные, более мощные руки робота и даже би-управляющие установки», Гош, Уолке, Пертч, Блэк и Мез, сказалПолем«Эта гибкость - это то, что делает OCTO более применимым к разнообразным настройкам, которые у роботиков на самом деле есть во всем мире».
Исследователи оценили свою модель в серии первоначальных экспериментов, развернув ее на девяти различных роботизированных системах, разработанных в UC Berkely, Stanford и CMU.OCTO удалось управлять этими роботами и позволило им выполнять различные задачи манипуляции, даже в тех случаях, когда он не сталкивался с данными, собранными датчиками этих роботов или их уникальным дизайном во время обучения.
«Было действительно здорово видеть, что мы можем взять нашу модель OCTO и использовать ее для контроля многих разных роботов», - сказали исследователи.«С тех пор, как мы выпустили модель, мы увидели немало людей, которые пытались запустить ее на своих собственных роботах, и мы использовали кодовую базу, которую мы создали для OCTO в наших следующих проектах. Это некоторые обнадеживающие признаки того, что OCTO действительно поможет воспитыватьСледующее поколение улучшенных моделей фундамента для робототехники ».
Для исследователей развитие OCTO было просто небольшой вехой для их цели по созданию универсалистской модели для манипуляций с роботом.В своих следующих исследованиях они планируют продолжать работать над этой целью и надеяться, что исследовательские группы в других институтах также начнут экспериментировать со своим кодом.
“Прямо сейчас, скорее всего, модель не будет работать на вашем роботе из коробки, и вам нужно собрать несколько примеров задачи, которую вы хотите, чтобы ваш робот решил, чтобы научить его OCTO, даже если это обыденная задача, такая как выборВверх по кокс банки на новой кухне », - добавили они.
«Это означает, что способность обобщения текущей модели по -прежнему довольно ограничена, и мы работаем над новыми моделями, которые подтолкнут это немного дальше. Мы еще не в точке, где вы можете просто загрузить модель на своюРобот, расскажите своему роботу, что вы хотели бы сделать, и он преуспеет в 9 из 10 раз, но мы работаем над этой целью ».
More information: Dibya Ghosh et al, Octo: An Open-Source Generalist Robot Policy, arXiv (2024). DOI: 10.48550/arxiv.2405.12213
Нашли ошибку в тексте? Напишите нам.