Подход, который позволяет роботам учиться в изменении среды от обратной связи и исследования человека.
Изображение автономного исследования с помощью снаряжения - политика чередуются между попытками перейти в цель и возвращение к первоначальному состоянию.При этом агенту приказано промежуточной подъеме, которая является проксимальностью к цели и доступен в соответствии с текущей политикой.Когда это отсутствует, политика проводит случайное исследование.Полученная политика учится идти туда -сюда, эффективно исследуя пространство.Кредит: Balsells et al.
Чтобы лучше всего помочь людям в реальных условиях, роботы должны быть в состоянии постоянно приобретать полезные новые навыки в динамичных и быстро меняющихся средах.В настоящее время, однако, большинство роботов могут выполнять только задачи, на которые они ранее обучались, и могут получить новые возможности только после дальнейшего обучения.
Исследователи из Университета Вашингтона и Массачусетского технологического института (MIT) недавно представили новый подход, который позволяет роботам изучать новые навыки при навигации по изменяющейся среде.Этот подход, представленный на 7 -й конференции по обучению роботам (CORL), использует подкрепление обучения для обучения роботов с использованием отзывов человека и информации, собранной при изучении их окружения.
«Идея этой статьи пришла из другой работы, которую мы опубликовали недавно»,-сказал Max Balsells, соавтор газеты.Текущая статья доступна на сервере Arxiv Preprint.
«В нашем предыдущем исследовании мы исследовали, как использовать краудсорсинскую (потенциально неточную) обратную связь от людей, полученных от сотен людей по всему миру, чтобы научить робота выполнять определенные задачи, не полагаясь на дополнительную информацию, как и в большинстве случаевПредыдущая работа в этой области “.
Находясь в своем предыдущем исследовании, бальслы и их коллеги достигли многообещающих результатов, предложенный ими метод должен был быть постоянно сброшен для обучения роботам новым навыкам.Другими словами, каждый раз, когда робот пытался выполнить задачу, его окружение и настройки возвращаются к тому, как они были до испытания.
«Необходимость сброса сцены является препятствием, если мы хотим, чтобы роботы изучали какую -либо задачу с максимально небольшими человеческими усилиями», - сказал Балселлс.«В рамках нашего недавнего исследования мы решили решить эту проблему, позволяя роботам учиться в изменяющейся среде, все еще просто от обратной связи с человеком, а также случайных и управляемых исследований».
Новый метод, разработанный Balsells и его коллегами, имеет три ключевых компонента, получившие название политики, селектор целей и модель плотности, каждый из которых поддерживается различной техникой машинного обучения.Первая модель, по сути, пытается определить, что робот должен сделать, чтобы добраться до определенного места.
«Цель модели политики состоит в том, чтобы понять, какие действия должен предпринять робот, чтобы прийти к определенному сценарию, откуда он находится в настоящее время»,-объяснил Марсель Торн, соавтор статьи.«То, как эта первая модель узнает, это видно, как изменилась среда после того, как робот предпринял действие. Например, глядя на то, где робот или объекты комнаты после принятия некоторых действий».
По сути, первая модель предназначена для определения действий, которые робот должен будет предпринять, чтобы достичь определенного целевого местоположения или цели.Напротив, вторая модель (то есть селектор целей) направляет робота, пока он все еще учится, сообщая, когда он ближе к достижению установленной цели.
«Цель сектора целей состоит в том, чтобы сказать, в каких случаях робот был ближе к достижению задачи», - сказал Балселлс.«Таким образом, мы можем использовать эту модель, чтобы направлять робота, запустив сценарии, которые она уже увидела, в которых она была ближе к достижению задачи. Оттуда робот может просто делать случайные действия, чтобы изучить больше этой частиОкружающая среда. Если бы у нас не было этой модели, робот не делал бы значимых вещей, заставляя первую модель очень трудно научиться. Эта модель узнает об этом от человеческой обратной связи ».
Подход команды гарантирует, что, когда робот движется в своем окружении, он постоянно передает сценарии, которые он сталкивается с конкретным веб -сайтом.Затем человеческие пользователи краудсир просматривали эти сценарии и соответствующие действия робота, сообщая модели, когда робот ближе к достижению установленной цели.
«Наконец, цель третьей модели (то есть модель плотности) состоит в том, чтобы узнать, знает ли робот, как добраться до определенного сценария, откуда он находится в настоящее время», - сказал Бальселлс.«Эта модель важна, чтобы убедиться, что вторая модель направляет робота к сценариям, к которым может добраться робот. Эта модель обучается данным, представляющим прогрессию от разных сценариев, до сценариев, в которых закончился робот».
Третья модель в рамках исследователей в основном гарантирует, что вторая модель направляет только робота в доступные места, которые она знает, как достичь.Это способствует обучению посредством исследования, одновременно снижая риск инцидентов и ошибок.
«Селектор целей направляет робота, чтобы убедиться, что он идет в интересные места», - сказал Торн.«Примечательно, что модели политики и плотности учатся, просто посмотрев на то, что происходит, то есть, как изменяется местоположение робота и объектов, когда робот взаимодействует. С другой стороны, вторая модель обучается с использованием обратной связи человека».
Примечательно, что новый подход, предложенный Balsells и его коллегами, опирается только на обратную связь человека, чтобы направить робота в его обучении, а не специфически демонстрировать, как выполнять задачи.Таким образом, он не требует обширных наборов данных, содержащих кадры демонстраций, и может способствовать гибкому обучению с меньшим количеством человеческих усилий.
«Используя третью модель, чтобы узнать, к каким сценариям может добраться робот, нам не нужно ничего сбросить, робот может непрерывно учиться, даже если некоторые объекты больше не находятся в одном месте», - сказал Торн.«Самым важным аспектом нашей работы является то, что он позволяет любому научить робота, как решить определенную задачу, просто позволив ей работать самостоятельно, подключая его к Интернету, чтобы люди во всем мире время от времени говорили егоВ каких моментах это было ближе к достижению задачи ».
Подход, представленный этой командой исследователей, может проинформировать о разработке более подкрепления, основанных на обучении, которые позволяют роботам улучшать свои навыки и учиться в динамичной реальной среде.Balsells, Torne и их коллеги теперь планируют расширить свой метод, предоставляя роботу некоторые «примитивы» или основные руководящие принципы о том, как выполнять конкретные навыки.
«Например, прямо сейчас робот узнает, какие двигатели он должен двигаться каждый раз, но мы могли бы запрограммировать, как робот может перейти к определенной точке комнаты, и тогда робот не нужно будет изучать это; это будетПросто нужно знать, куда перейти »добавили бальсоны и торн.
«Еще одна идея, которую мы хотим изучить в наших следующих исследованиях,-это использование больших предварительно обученных моделей, уже обученных для множества задач о робототехнике (например, CHATGPT для робототехники), адаптируя их к конкретным задачам в реальном мире, используя наш метод.Это может позволить кому -либо легко и быстро научить роботов достигать новых навыков, не обращая к ним переподготовку с нуля ».
Больше информации: Max Balsells et al., Автономное обучение роботизированной подкреплению с асинхронной обратной связью с человека, Arxiv (2023).Doi: 10.48550/arxiv.2310.20608
Нашли ошибку в тексте? Напишите нам.