5 мин. чтения
6/13/2024 10:36:04 AM

Языковые входные данные вместо дорогостоящих визуальных данных для ориентации роботов

Article Preview Image Задача между Альфредом и R2R.Мы подчеркиваем заметные различия между задачами навигации в Альфреда и R2R, охватывая вариации внешнего вида, размера шага и сложностью инструкции.Кредит: Arxiv (2023).Doi: 10.48550/arxiv.2310.07889

Чтобы преодолеть эти проблемы, исследователи из MIT и лаборатории MIT-IBM Watson AI разработали метод навигации, который преобразует визуальные представления в кусочки языка, которые затем подаются в одну крупную языковую модель, которая достигает всех частей задачи многоэтапного навигации.

Вместо того, чтобы кодировать визуальные особенности из изображений окружающей среды робота в качестве визуальных представлений, что является вычислительным интенсивным, их метод создает текстовые подписи, которые описывают точку зрения робота.Большая языковая модель использует подписи для прогнозирования действий, которые робот должен предпринять для выполнения языковых инструкций пользователя.

Поскольку их метод использует чисто языковые представления, они могут использовать большую языковую модель, чтобы эффективно генерировать огромное количество синтетических тренировочных данных.

Хотя этот подход не превосходит методы, которые используют визуальные функции, он хорошо работает в ситуациях, в которых отсутствует достаточно визуальных данных для обучения.Исследователи обнаружили, что сочетание их языковых входов с визуальными сигналами приводит к повышению производительности навигации.

«Чисто используя язык в качестве представления восприятия, наше является более простым подходом. Поскольку все входные данные могут быть закодированы как язык, мы можем генерировать человеческую траекторию»,-говорит Боуэн Пан, электротехника и информатика (EECS)Аспирант и ведущий автор документа по этому подходу, которая опубликована на сервере Arxiv Preprint.

По словам Пан говорит, что, поскольку крупные языковые модели являются самыми мощными моделями машинного обучения, исследователи стремились включить их в сложную задачу, известную как навигация по видению и языке.

Но такие модели принимают текстовые входные данные и не могут обрабатывать визуальные данные с камеры робота.Таким образом, команде нужно было найти способ использовать язык вместо этого.

Их методика использует простую модель подписи для получения текстовых описаний визуальных наблюдений робота.Эти подписи объединены с языковыми инструкциями и подают в большую языковую модель, которая решает, какой шаг навигации должен сделать робот.

Большая языковая модель выводит подпись сцены, которую робот должен видеть после завершения этого шага.Это используется для обновления истории траектории, чтобы робот мог отслеживать, где она была.

Модель повторяет эти процессы, чтобы генерировать траекторию, которая направляет робота к своей цели, по одному шагу за раз.

Чтобы упростить процесс, исследователи разработали шаблоны, поэтому информация о наблюдении представлена ​​модели в стандартной форме - как серия вариантов, которые робот может сделать на основе своего окружения.

Например, заголовок может сказать: «Слева от 30 градусов-это дверь с горшечным заводом рядом с ней, к вашей спине-небольшой офис с столом и компьютером» и т. Д. Модель выбирает, должен ли робот двигаться кдверь или офис.

«Одной из самых больших задач было выяснить, как кодировать такую ​​информацию на язык должным образом, чтобы агент понял, что это за задача и как они должны реагировать», - говорит Пан.

Когда они проверили этот подход, хотя он не мог превзойти методы, основанные на зрении, они обнаружили, что он предлагает несколько преимуществ.

Во -первых, поскольку текст требует меньше вычислительных ресурсов для синтеза, чем сложные данные изображения, их метод можно использовать для быстрого генерации синтетических данных обучения.В одном тесте они генерировали 10 000 синтетических траекторий, основанных на 10 реальных визуальных траекториях.

Техника также может преодолеть разрыв, который может помешать агенту, обученному с имитированной средой хорошо работать в реальном мире.Этот разрыв часто возникает, потому что сгенерированные компьютером изображения могут выглядеть совершенно отличаться от реальных сцен из-за таких элементов, как освещение или цвет.Но язык, который описывает синтетическое и реальное изображение, было бы гораздо труднее отличить, говорит Пан.

Кроме того, представления, которые их модель использует, легче понять человеку, потому что они написаны на естественном языке.

«Если агент не сможет достичь своей цели, мы можем легче определить, где он потерпел неудачу и почему он потерпел неудачу. Возможно, информация истории недостаточно ясна, или наблюдение игнорирует некоторые важные детали», - говорит Пан.

Кроме того, их метод может быть более легко применять к различным задачам и средам, поскольку он использует только один тип ввода.Пока данные могут быть закодированы как язык, они могут использовать ту же модель, не внося никаких изменений.

Но одним из недостатков является то, что их метод естественным образом теряет некоторую информацию, которая будет запечатлена на основе зрения, такими как информация о глубине.

Тем не менее, исследователи были удивлены, увидев, что сочетание языковых представлений с методами, основанными на зрении, улучшает способность агента ориентироваться.

«Возможно, это означает, что язык может отражать некоторую информацию более высокого уровня, чем не может быть зафиксирован с помощью чистого зрения»,-говорит он.

Это одна из областей, которую исследователи хотят продолжить изучение.Они также хотят разработать навигационную подпись, которая может повысить производительность метода.Кроме того, они хотят исследовать способность крупных языковых моделей демонстрировать пространственное осознание и посмотреть, как это может помочь навигации на основе языка.

More information: Bowen Pan et al, LangNav: Language as a Perceptual Representation for Navigation, arXiv (2023). DOI: 10.48550/arxiv.2310.07889

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

DeepMind разрабатывает робота, который может играть в любительском уровне пинг-понг

8/10/2024 · 5 мин. чтения

DeepMind разрабатывает робота, который может играть в любительском уровне пинг-понг

Пикотаур - непревзойденный микроробот

8/10/2024 · 5 мин. чтения

Пикотаур - непревзойденный микроробот

*Facebook, Instagram, Meta - запрещенные в РФ организации.