Более простой метод обучения роботам новым навыкам
Обзор высокого уровня процесса рендеринга и диффузного процесса в контексте задачи размещения сиденья унитаза.Рендерированные Robot Grippers обновляются итеративно с использованием изученного процесса денирования до тех пор, пока они не представляют действия, необходимые для выполнения задачи.Различные цвета представляют собой различные действия робота в будущем.Кредит: Vosylius et al.
Исследователи в Imperial College London и Dyson Robot Learn Lab недавно представили Render and Diffuse (R & D), метод, который объединяет действия роботов низкого уровня и изображения RBG с использованием виртуальных 3D-рендеров роботизированной системы.Этот метод, представленный в статье, опубликованном на сервере Arxiv Preprint, в конечном итоге может облегчить процесс обучения роботов новым навыкам, уменьшая огромное количество человеческих демонстраций, требуемых многими существующими подходами.
«Наша недавняя статья была обусловлена целью дать людям эффективно научить роботов новым навыкам без необходимости обширных демонстраций», - сказала Виталис Восилиус, филиал доктор философии.Студент в Имперском колледже Лондон и ведущий автор.«Существующие методы являются интенсивными данными и борются с пространственным обобщением, работая плохо, когда объекты позиционируются не так, как демонстрации. Это связано с тем, что прогнозирование точных действий в качестве последовательности чисел из изображений RGB чрезвычайно сложна, когда данные ограничены».
Во время стажировки в Dyson Robot Learning Vosylius работал над проектом, который завершился разработкой НИОКР.Этот проект был направлен на упрощение проблемы обучения для роботов, что позволило им более эффективно предсказать действия, которые позволят им выполнять различные задачи.
В отличие от большинства роботизированных систем, изучая новые ручные навыки, люди не выполняют обширные расчеты, чтобы определить, насколько они должны перемещать свои конечности.Вместо этого они обычно пытаются представить, как их руки должны двигаться, чтобы эффективно выполнять определенную задачу.
«Наш метод, рендеринг и диффузный, позволяет роботам делать что -то подобное:« Представьте себе »их действия на изображении, используя виртуальные рендеры их собственного варианта», - объяснил Возилиус.«Представление действий робота и наблюдений вместе как RGB -изображения позволяет нам обучать роботам различным задачам с меньшим количеством демонстраций и делать это с улучшенными возможностями пространственного обобщения».
Чтобы робот научился выполнять новую задачу, ему сначала необходимо предсказать действия, которые он должен выполнять на основе изображений, снятых его датчиками.Метод НИОКР, по сути, позволяет роботам более эффективно изучать это отображение между изображениями и действиями.
«Как намекал его название, наш метод имеет два основных компонента», - сказал Возилиус.«Во -первых, мы используем виртуальные рендеры робота, позволяя роботу« представить »его действия так же, как он видит окружаюдействия
«Во -вторых, мы используем ученый процесс диффузии, который итеративно уточняет эти воображаемые действия, в конечном итоге приводит к последовательности действий, которые робот должен предпринять для выполнения задачи».
Используя широко доступные 3D -модели роботов и методов рендеринга, НИОКР может значительно упростить получение новых навыков, а также значительно снизить требования к данным обучения.Исследователи оценили свой метод в серии моделирования и обнаружили, что он улучшил возможности обобщения роботизированной политики.
Они также продемонстрировали возможности своего метода в эффективном решении шести повседневных задач с помощью настоящего робота.Эти задачи включали в себя сбивание сиденья унитаза, подметание шкафа, открытие коробки, помещение яблока в ящик, открытие и закрытие ящика.
«Тот факт, что использование виртуальных рендеров робота для представления его действий приводит к повышению эффективности данных, действительно интересно», - сказал Восилий.«Это означает, что, умно представляя действия робота, мы можем значительно сократить данные, необходимые для обучения роботов, в конечном итоге сокращая трудоемкую потребность для сбора обширных объемов демонстраций».
В будущем метод, представленный этой командой исследователей, может быть протестирован дальше и применить к другим задачам, которые могут решить роботы.Кроме того, многообещающие результаты исследователей могут вдохновить разработку аналогичных подходов для упрощения подготовки алгоритмов для применений робототехники.
«Способность представлять действия робота в изображениях открывает захватывающие возможности для будущих исследований», - добавил Возилиус.«Я особенно взволнован тем, что объединил этот подход с мощными моделями фонда изображений, обученными массовым интернет-данным. Это может позволить роботам использовать общие знания, захваченные этими моделями, в то же время имея возможность рассуждать о действиях роботов низкого уровня».
More information: Vitalis Vosylius et al, Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning, arXiv (2024). DOI: 10.48550/arxiv.2405.18196
Нашли ошибку в тексте? Напишите нам.