Сбор более эффективных человеческих демонстраций для обучения роботам новым навыкам
Обзор системы: Использование информационной энтропии для направления пользователей в области самой высокой неопределенности в LFD.Кредит: Sakr et al.
Исследователи из Университета Британской Колумбии, Университета Карнеги -Меллона, Университета Монаш и Университета Виктории недавно намеревались собрать более надежные данные для обучения роботов с помощью демонстраций.Их статья, размещенная на сервере Arxiv Preprint, показывает, что собранные ими данные могут значительно повысить эффективность, с которой роботы учатся на демонстрациях людей пользователей.
«Роботы могут строить автомобили, собирать предметы для заказов на покупки на оживленных складах, вакуумных полах и держать в больничных полках снабженными припасами», - сказал Tech Xplore Марам Сакр, один из исследователей, которые провели исследование.«Традиционные системы программирования роботов требуют, чтобы экспертный программист разработал контроллер робота, который способен выполнять такие задачи, отвечая на любую ситуацию, с которой может столкнуться робот».
Обычные подходы к обучению роботов для выполнения конкретных задач требуют навыков компьютерных ученых.Часто, чтобы хорошо работать, эти подходы требуют, чтобы задачи были разбиты на десятки или сотни более мелких подзадач, впоследствии проверяя надежность каждого из этих подзадач.
Этот процесс занимает много времени и требует вычислительно.Кроме того, если происходит сбой, и модель обучения перестает работать должным образом, она должна быть исправлена высококвалифицированными техниками.
“Обучение на демонстрациях (LFD) является многообещающим альтернативным подходом для обучающих роботов, который позволяет неэкспертным человеческим учителям (то есть экспертам по доменам, но не экспертам по робототехнике) программировать робота, просто показав, как выполнить задачу; не требуется программирование., - сказал Сакр.«Затем, когда возникают сбои, учитель -человеку необходимо предоставить больше демонстраций, а не призывать к профессиональной помощи. LFD стремится надевать роботов способностью научиться выполнять задачу, обобщая несколько наблюдений за человеческим учителем».
Методы LFD опираются на современные методы машинного обучения (ML), которые достигли замечательных результатов по различным задачам.Эффективное обучение этих методов зависит от эффективных и хороших демонстрационных данных, однако большинство доступных наборов данных содержат низкое разрешение, низкое качество или недостаточные кадры.
«Сбор учебного набора данных в любой системе обучения имеет решающее значение для успешного процесса обучения», - сказал Сакр.«Данные обучения должны быть репрезентативными для состояний, с которыми робот столкнется в будущем. Таким образом, эта статья направлена на то, чтобы привести пользователей для предоставления эффективного набора демонстраций для робота, чтобы учиться. Под« эффективным »мы подразумеваем минимальное числодемонстраций, которые хорошо распределены по пространству задач для достижения высоких возможностей обобщения для робота ».
Ключевым ограничением ранее предложенных подходов LFD является то, что они полагаются на демонстрации, выполняемые компьютерными учеными, а не ежедневными пользователями, не являющимися экспертами.В своей статье Сакр и ее коллеги исследуют возможность обучения повседневных пользователей выбирать данные обучения или демонстрации, которые улучшают обучение робота и позволяют ему лучше обобщать по разным задачам.
«Во время обучения учителей человека подчеркиваются области в пространстве задач с самой высокой неопределенностью в отношении способности робота выполнять задачу», - объяснил Сакр.”Дополнительные демонстрации в этих областях могут больше всего принести пользу роботу при успешном выполнении задачи при эффективном использовании усилий учителя (то есть, предоставляя более низкое количество демонстраций, которые достигают более широкого обобщения для робота). В соответствии с этим руководством учитель -человеческий может наблюдатькоторая следующая демонстрация максимизирует обучение роботов, а также размер и разнообразие демонстраций, необходимых для полного покрытия рабочего пространства ».
Примечательно, что критерии выбора эффективных демонстраций, изложенных SAKR и ее коллег, могут легко следовать различным пользователям человека, независимо от их уровня опыта и конкретного алгоритма, питающего робота.Если пользователь предоставляет низкокачественные или неэффективные демонстрации, предлагаемая система руководства будет подчеркнуть необходимость большего количества демонстраций для улучшения обучения робота.
Исследователи оценили эффективность своего подхода в простом эксперименте, где 24 пользователя начинающих роботов были обучены для производства эффективных демонстраций, используя систему руководства на основе дополненной реальности (AR), основанную на их критериях.После того, как эти неэкспертные пользователи завершили свое обучение, команда оценила свою способность создавать эффективные демонстрации новых испытаний, которые были сосредоточены на новых задачах, не предоставляя никаких руководств.
«Мы продемонстрировали, что краткая сессия интерактивного обучения и руководства значительно улучшила навыки преподавания мирян, что привело к повышению эффективности обучения роботов и обобщения», - сказал Сакр.«Примечательно, что это онлайн -обучение произошло благодаря демонстрациям учителя без предварительного знания робототехники или алгоритмов машинного обучения. Предлагаемая учебная структура позволяет пользователям понять необходимые демонстрации для эффективного обучения роботов, не углубляясь в тонкостях процесса обучения».
Результаты, собранные SAKR и их коллегами, предполагают, что обучение пользователей, не являющихся экспертами, создавать эффективные демонстрации, может значительно снизить стоимость обучающих роботов посредством имитационного обучения, а также повышение эффективности, с которой они учатся.Команда обнаружила, что демонстрации, создаваемые их обученными участниками, повысили эффективность, с которой роботы, изученные до 198%, по сравнению с демонстрациями, созданными не обученными пользователями, и 210% по сравнению с подходами к обучению, основанным на пробных и ошибках.
«Наше исследование направлено на то, чтобы демократизировать доступ к робототехнике во всех областях», - сказал Сакр.”Интеграция интуитивно понятной и интерактивной подготовки в трубопровод LFD может значительно расширить использование роботов в различных областях. Этот подход может улучшить взаимодействие человека-робота, сократив время, необходимое для обучения робота для новой задачи. Кроме того, он облегчаетПеренос навыков для экспертов домена, которым не хватает знаний о программировании ».
В будущем критерии и система на основе AR, используемая этой группой исследователей, могут помочь лучше научить роботов новым навыкам с помощью неэкспертных демонстраций.Кроме того, недавняя работа Сакра и ее коллег может вдохновить другие команды на разработку аналогичных подходов для создания эффективных демонстраций задач, что в конечном итоге способствует развертыванию роботов в реальных условиях и повышении их способности учиться у людей.
«Значительное улучшение эффективности, направляя только пользователей, чтобы хорошо распространять демонстрации, позволяет предположить, что руководство пользователями предоставлять высококачественные демонстрации наряду с их хорошим распределением, может еще больше повысить эффективность обучения»,-добавил Сакр.«Тестирование предлагаемого подхода в реальных объектах с пользователями в неконтролируемых условиях будет интригующим. В таких сценариях пользователи могут определить продолжительность руководства или последовательно использовать его, чтобы обеспечить их наиболее полезные демонстрации роботу.
«Наконец, изучение применения системы на основе энтропии в разных областях и в сочетании с различными алгоритмами обучения дает возможность для дальнейшей оценки его возможностей обобщения».
Больше информации: Maram Sakr и др., Как повседневные пользователи могут эффективно обучать роботов по демонстрациям?, Arxiv (2023).Doi: 10.48550/arxiv.2310.13083
Нашли ошибку в тексте? Напишите нам.