4 мин. чтения
7/20/2023 8:47:12 AM

Новая методика помогает пользователю понять, почему робот вышел из строя, а затем настроить его для выполнения задачи

Featured Image 1 Pixabay/CC0 Public Domain

«Критически важным компонентом, отсутствующим в этой системе, является то, что робот может продемонстрировать, почему он терпит неудачу, чтобы пользователь мог дать ему обратную связь», — говорит Энди Пэн, аспирант по электротехнике и информатике (EECS) в Массачусетском технологическом институте.

Когда робот терпит неудачу, система использует алгоритм для создания контрфактических объяснений, которые описывают, что необходимо изменить, чтобы робот добился успеха. Например, может быть, робот смог бы поднять кружку, если бы кружка была определенного цвета. Он показывает эти контрфакты человеку и просит обратной связи о том, почему робот потерпел неудачу. Затем система использует эту обратную связь и контрфактические объяснения для генерации новых данных, которые она использует для точной настройки робота.

Тонкая настройка включает в себя настройку модели машинного обучения, которая уже обучена выполнять одну задачу, чтобы она могла выполнять вторую, аналогичную задачу.

Исследователи протестировали эту технику в симуляциях и обнаружили, что она может обучать робота более эффективно, чем другие методы. Роботы, обученные с помощью этой структуры, работали лучше, в то время как процесс обучения занимал меньше времени человека.

Эта структура может помочь роботам быстрее учиться в новых условиях, не требуя от пользователя технических знаний. В долгосрочной перспективе это может стать шагом к тому, чтобы роботы общего назначения могли эффективно выполнять повседневные задачи для пожилых людей или людей с ограниченными возможностями в различных условиях.

Обучение на рабочем месте

Роботы часто терпят неудачу из-за сдвига в распределении — роботу предъявляются объекты и пространства, которые он не видел во время обучения, и он не понимает, что делать в этой новой среде.

Одним из способов переобучения робота под конкретную задачу является имитационное обучение. Пользователь мог продемонстрировать правильную задачу, чтобы научить робота, что делать.

Обучение робота распознаванию того, что кружка есть кружка, независимо от ее цвета, может занять тысячи демонстраций.

«Я не хочу проводить демонстрацию с 30 000 кружек. Я хочу продемонстрировать всего одной кружкой. Но затем мне нужно научить робота, чтобы он распознавал, что может взять кружку любого цвета», — говорит Пэн.

Для этого система исследователей определяет, какой конкретно объект интересует пользователя (кружка) и какие элементы не важны для задачи (возможно, цвет кружки не имеет значения). Он использует эту информацию для создания новых, синтетических данных, изменяя эти «неважные» визуальные концепции. Этот процесс известен как аугментация данных.

Фреймворк состоит из трех этапов. Во-первых, он показывает задачу, из-за которой робот вышел из строя. Затем он собирает демонстрацию от пользователя желаемых действий и генерирует контрфакты, просматривая все функции в пространстве, которые показывают, что нужно изменить, чтобы робот добился успеха.

Система показывает эти контрфакты пользователю и запрашивает обратную связь, чтобы определить, какие визуальные концепции не влияют на желаемое действие. Затем он использует эту человеческую обратную связь для создания множества новых дополненных демонстраций.

Таким образом, пользователь может продемонстрировать, как взять в руки одну кружку, но система будет производить демонстрации, показывающие желаемое действие с тысячами различных кружек, изменяя цвет. Он использует эти данные для тонкой настройки робота.

От человеческих рассуждений к рассуждениям роботов

Поскольку их работа направлена на то, чтобы поместить человека в тренировочный цикл, исследователи проверили свою технику на людях-пользователях. Сначала они провели исследование, в котором спросили людей, помогают ли контрфактические объяснения им определить элементы, которые можно изменить, не влияя на задачу.

Двигаясь вперед, исследователи надеются протестировать эту структуру на реальных роботах. Они также хотят сосредоточиться на сокращении времени, необходимого системе для создания новых данных с использованием генеративных моделей машинного обучения.

Пэн и ее сотрудники из Массачусетского технологического института, Нью-Йоркского университета и Калифорнийского университета в Беркли создали структуру, которая позволяет людям быстро научить робота тому, что они хотят, с минимальными усилиями.

Подробнее: Andi Peng et al, Diagnosis, Feedback, Adaptation: A Human-in-the-Loop Framework for Test-Time Policy Adaptation, arXiv ( 2023). DOI: 10.48550/arxiv.2307.06333 🔗

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

ChatGPT создал своего первого робота

6/8/2023 · 4 мин. чтения

ChatGPT создал своего первого робота

Самая страшная тайна ИИ

7/31/2023 · 4 мин. чтения

Самая страшная тайна ИИ