6 мин. чтения
11/28/2023 11:52:04 AM

Новый метод использует обратную связь с краудсорсингом для обучения роботов

Article Preview Image Огромные рычаги шумные и асинхронные отзывы от множества не экспертов для обучения политики контроля роботов непосредственно в реальном мире.Кредит: Arxiv (2023).Doi: 10.48550/arxiv.2307.11049

Во многих случаях человеческий эксперт должен тщательно спроектировать функцию вознаграждения, которая является механизмом стимулирования, который дает агенту мотивацию для изучения.Человеческий эксперт должен итеративно обновить эту вознаграждение, как агент исследует и пытается различные действия.Это может быть трудоемким, неэффективным и трудным для масштабирования, особенно когда задача является сложной и включает в себя множество этапов.

Исследователи из MIT, Гарвардского университета и Вашингтонского университета разработали новый подход к обучению подкрепления, который не зависит от опытной функции вознаграждения.Вместо этого он использует отзывы о краудсорсингах, собранных от многих неэкспертов, чтобы направлять агента, учится достигать своей цели.Работа была опубликована на сервере Pre-Print Arxiv.

В то время как некоторые другие методы также пытаются использовать неэкспертную обратную связь, этот новый подход позволяет агенту искусственного интеллекта учиться быстрее, несмотря на то, что данные, краудсорсинга, от пользователей часто полны ошибок.Эти шумные данные могут привести к выходу из строя других методов.

Кроме того, этот новый подход позволяет собирать обратную связь асинхронно, поэтому неэкспертные пользователи по всему миру могут способствовать обучению агента.

“Одной из самых трудоемких и сложных частей при разработке роботизированного агента сегодня является разработка функции вознаграждения. Сегодня функции вознаграждения разработаны опытными исследователями-парадигма, которая не является масштабируемой, если мы хотим научить наших роботов много разных задач. Наши.Работа предлагает способ масштабировать обучение роботов путем краудсорсинга проектирования функции вознаграждения и путем возможности не экспертов обеспечить полезную обратную связь »,-говорит Пулкит Агравал, доцент профессора MIT Департамента электротехники и информатики (EECS)Кто возглавляет невероятную лабораторию ИИ в лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL).

В будущем этот метод может помочь роботу научиться быстро выполнять определенные задачи в доме пользователя, без того, чтобы владелец не должен показать физические примеры робота каждой задачи.Робот мог бы исследовать самостоятельно, с краудсорсинговой неэкспертной обратной связью, направляющей ее исследование.

«В нашем методе функция вознаграждения направляет агента к тому, что он должен исследовать, вместо того, чтобы рассказывать ему именно то, что она должна выполнять, чтобы выполнить задачу. Поэтому, даже если человеческий надзор несколько неточный и шумный, агент все еще способенИзучите, что помогает ему учиться намного лучше », - объясняет ведущий автор Марсель Торн, научный сотрудник в невероятной лаборатории искусственного интеллекта.

Торн присоединяется к газете его советник MIT Агравал;Старший автор Абхишек Гупта, доцент в Вашингтонском университете;а также другие в Университете Вашингтона и Массачусетского технологического института.Исследование будет представлено на конференции по системам обработки нейронной информации в следующем месяце.

Один из способов сбора обратной связи пользователей для обучения подкреплению - показать пользователю две фотографии состояний, достигнутых агентом, а затем попросить пользователей указать, что ближе к цели.Например, возможно, цель робота - открыть кухонный шкаф.Одно изображение может показать, что робот открыл шкаф, в то время как второй может показать, что он открыл микроволновую печь.Пользователь выберет фотографию «лучшего» состояния.

Некоторые предыдущие подходы пытаются использовать эту краудсорсинскую бинарную обратную связь, чтобы оптимизировать функцию вознаграждения, которую агент будет использовать для изучения задачи.Однако, поскольку не эксперты, вероятно, будут ошибаться, функция вознаграждения может стать очень шумной, поэтому агент может застрять и никогда не достигать своей цели.

«По сути, агент будет относиться к функции вознаграждения слишком серьезно. Он попытался бы идеально соответствовать функции вознаграждения. Поэтому вместо непосредственной оптимизации функции вознаграждения мы просто используем его, чтобы сообщить роботу, какие области он должен изучать», - ».Торн говорит.

Он и его сотрудники разместили процесс на две отдельные части, каждая из которых направлена на свой собственный алгоритм.Они называют свой новый метод обучения подкреплением огромным (исследование человеческого руководства).

С одной стороны, алгоритм селектора целей постоянно обновляется с помощью краудсорсинга.Обратная связь не используется в качестве функции вознаграждения, а для руководства исследованием агента.В некотором смысле, не экспертные пользователи панируют сухари, которые постепенно приводят агента к своей цели.

С другой стороны, агент исследует самостоятельно, самоотверженным образом, руководствуясь селектором целей.Он собирает изображения или видео о действиях, которые он пытается, которые затем отправляются людям и используются для обновления селектора целей.

Это сужает область для агента, чтобы исследовать, что приводит к более перспективным областям, которые ближе к его цели.Но если нет обратной связи, или если обратная связь займет время, чтобы прибыть, агент будет продолжать учиться самостоятельно, хотя и медленнее.Это позволяет обратной связке редко и асинхронно.

“Цикл разведки может продолжать идти автономно, потому что он просто будет исследовать и изучать новые вещи. А потом, когда вы получите какой -то лучший сигнал, он будет исследовать более конкретными способами. Вы можете просто держать их в своем собственном темпе, »добавляет Торн.

И поскольку обратная связь просто аккуратно направляет поведение агента, он в конечном итоге научится выполнять задачу, даже если пользователи дадут неверные ответы.

Исследователи проверили этот метод по ряду моделируемых и реальных задач.При симуляции они использовали огромные для эффективного изучения задач с длинными последовательностями действий, таких как блоки с укладкой в определенном порядке или навигация по большому лабиринту.

В реальных тестах они использовали огромную для обучения роботизированных рук, чтобы нарисовать букву «U» и выбирать и поместить объекты.Для этих тестов они покрасили данные от 109 не экспертов в 13 разных странах, охватывающих три континента.

В реальных и смоделированных экспериментах, огромные помощи агенты научились достигать цели быстрее, чем другие методы.

Исследователи также обнаружили, что данные, краудсорсированные от неэкспертов, давали лучшую производительность, чем синтетические данные, которые были произведены и помечены исследователями.Для пользователей, не являющихся экспертами, маркировка 30 изображений или видео заняла менее двух минут.

«Это делает его очень многообещающим с точки зрения возможности масштабировать этот метод», - добавляет Торн.

В связанной статье, которую исследователи представили на недавней конференции по обучению роботам, они улучшили огромные, поэтому агент ИИ может научиться выполнять задачу, а затем автономно сбросить окружающую среду для продолжения обучения.Например, если агент учится открывать шкаф, метод также направляет агента закрывать шкаф.

«Теперь мы можем получить это полностью автономно без необходимости сброса человека», - говорит он.

Исследователи также подчеркивают, что в этом и других подходах к обучению крайне важно, чтобы агенты ИИ соответствовали человеческим ценностям.

В будущем они хотят продолжать усовершенствовать огромные, чтобы агент мог учиться на других формах общения, таких как естественный язык и физическое взаимодействие с роботом.Они также заинтересованы в применении этого метода для обучения нескольким агентам одновременно.

Больше информации: Marcel Torne et al. Сухарики к цели: исследование с обратной связью с обратной связью с человеком в петле, Arxiv (2023).Doi: 10.48550/arxiv.2307.11049

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Мини тактильный датчик на основе зрения на основе волоконно-оптических пучков

4/10/2024 · 6 мин. чтения

Мини тактильный датчик на основе зрения на основе волоконно-оптических пучков

Система слияния, которая расширяет возможности чувствительности и локализации роботов для скалолазания

4/9/2024 · 6 мин. чтения

Система слияния, которая расширяет возможности чувствительности и локализации роботов для скалолазания