DeepMind демонстрирует робота, способного провести экскурсии по офисному зданию
Архитектура мобильности VLA.Мультимодальное пользовательское обучение и видео демонстрационного тура об окружающей среде используются с помощью давно контекстового VLM (политика высокого уровня) для определения кадры цели в видео.Затем политика низкого уровня использует рамку цели и автономную топологическую карту (из туристического видео с использованием структурного отдела) для вычисления действия робота во всех временных точках.Кредит: Arxiv (2024).Doi: 10.48550/arxiv.2407.07775
Приложения ИИ прошли долгий путь только за последнее десятилетие, и такие LLM, как CHATGPT, теперь знакомы пользователям по всему миру.В этом новом усилии исследовательская группа предоставила AI-возможностям RT-2 роботы с помощью Gemini 1.5 Pro и использовала его, чтобы позволить роботу выполнять сложные действия.
Робот может слушать человека, которого он руководит, разрабатывать запрос и перевести его в поведение.Например, один исследователь попросил робота отнести его в место в офисе, где можно было бы сделать написание или рисунок.Робот подумал о просьбе примерно 30 секунд, а затем направил человека в место, где доска была прикреплена к стене в одном из офисов.
Исследователи объясняют, что робот может выполнять такие задачи, потому что его приложение Gemini 1.5 Pro было обучено понимать макет офисного пространства площадью 850 квадратных метров, используя свое длинное окно контекста, когда он собирал данные при просмотре видео в локациях вофис.
Исследователи описывают такой учебный опыт, как мультимодальная навигация по обучению с демонстрационными турами - как робот смотрел видео, он смог одновременно обрабатывать различные части офисных пейзажей, позволяя ему создавать ассоциации.
Добавляя обработку голоса и текста вместе с другими функциями искусственного интеллекта, команда DeepMind также смогла дать роботу возможность выполнять логическую обработку.Например, исследователь спросил робота, есть ли еще его любимый напиток в холодильнике.Робот отметил, что вблизи там, где сидел исследователь, было несколько пустых банок кокса, и использовал эту информацию, чтобы догадаться, что Кокс был его любимым напитком.Затем он повернулся к холодильнику и посмотрел внутрь, чтобы увидеть, есть ли какие -либо банки кокса.Затем он вернулся назад и сообщил, что нашел.
More information: Hao-Tien Lewis Chiang et al, Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs, arXiv (2024). DOI: 10.48550/arxiv.2407.07775
Нашли ошибку в тексте? Напишите нам.