Новая методолгия для четвероногих роботов позволяет осуществлять гибкие движения
Обзор структуры предложенного метода.Первоначально мы тренируем PMC, чтобы имитировать движения животных, используя дискретные скрытые встроены (этап 1).Декодер PMC используется повторно для обучения контроллеров на уровне окружающей среды для общего ходьбы, восстановления осени, ползти по узкому пространству и пересечения с препятствиями, блоками и лестницами отдельно, которые сжимаются в однородном контроллере на уровне окружающей среды с помощью многоэкспертной дистилляции (Этап 2).На последнем этапе мы повторно используем предварительно обученные сети экологического и примитивного уровня для обучения сети стратегического уровня для решения разработанной многоагентной игры Chase Tag (этап 3).Кредит: Интеллект природы (2024).Doi: 10.1038/s42256-024-00861-3
Было обнаружено, что вычислительные модели, обученные с помощью обучения подкреплению, достигают особенно многообещающих результатов для обеспечения гибкой локомоции в четвероногих роботах.Тем не менее, эти модели обычно обучаются в моделируемых средах, и их производительность иногда снижается, когда они применяются к реальным роботам в реальных средах.
Альтернативные подходы к реализации гибкой четвероногих локомоции используют кадры с движущимися животными, собранными датчиками движения и камер в качестве демонстраций, которые используются для обучения контроллеров (то есть алгоритмы для выполнения движений роботов).Было обнаружено, что этот подход, получивший название «Имитационное обучение», позволяет воспроизводить движения, похожие на животных, у некоторых четвероногих роботов.
Исследователи в Tencent Robotics X в Китае недавно представили новую иерархическую структуру, которая могла бы облегчить выполнение гибких движений, подобных животным, у четвероногих роботов.Эта структура, представленная в статье, опубликованной в сфере интеллекта Nature Machine, первоначально была применена к четвероногиму роботу под названием MAX, что дает очень многообещающие результаты.
«Были предприняты многочисленные усилия по достижению гибкой локомоции в квадратных роботах с помощью классических контролеров или подходов к подкреплению обучения», - написали в своей статье Лей Хан, Цинксу Чжу и их коллеги.«Эти методы обычно основаны на физических моделях или вознаграждениях ручной работы, чтобы точно описать конкретную систему, а не на общее понимание, как это делают животные. Мы предлагаем иерархическую основу для построения примитивных, экологических и стратегических уровняТренируемый, многоразовый и обогащенный для ноги -роботов “.
Новая структура, предложенная исследователями, простирается на трех этапах обучения подкрепления, каждая из которых фокусируется на извлечении знаний на разных уровнях задач передвижения и восприятия робота.Контроллер команды на каждой из этих этапов обучения называется примитивным контроллером двигателя (PMC), экологическим контроллером моторного контроллера (EPMC) и стратегическим экологическим моторным контроллером (SEPMC), соответственно.
«Примитивный модуль суммирует знания из данных о движении животных, где, вдохновленные большими предварительно обученными моделями в языке и понимании изображений, мы вводим глубокие генеративные модели для производства сигналов моторного управления, стимулирующих ноги, чтобы действовать как настоящие животные»,-пишут исследователи.«Затем мы формируем различные возможности обхода на более высоком уровне, чтобы соответствовать окружающей среде, повторно используя примитивный модуль. Наконец, обучается стратегический модуль, сосредотачиваясь на сложных нижестоящих задачах, повторно используя знания с предыдущих уровней».
Исследователи оценили их предлагаемую структуру в серии экспериментов, где они применили ее к четвероворовому роботу под названием Макс.В частности, были сделаны два максимальных робота, чтобы конкурировать в игре, похожей на тег, и структура использовалась для управления их движениями.
«Мы применяем обученные иерархические контроллеры к максимальному роботу, квадратному роботу, разработанному внутренним, чтобы имитировать животных, пройти сложные препятствия и играть в разработанной, сложной многогранной игре с меткой погоней, где появляются жизненные ловкости и стратегия в роботах., - написала команда.
В своих первоначальных тестах исследователи обнаружили, что их модель позволила максимальному роботу успешно пересекать различные среды, выполняя гибкие движения, которые напоминают движения животных.В будущем модель может быть адаптирована и применена к другим четвероногим роботам, что потенциально облегчает их развертывание в реальных условиях.
More information: Lei Han et al, Lifelike agility and play in quadrupedal robots using reinforcement learning and generative pre-trained models, Nature Machine Intelligence (2024). DOI: 10.1038/s42256-024-00861-3
Нашли ошибку в тексте? Напишите нам.