Искусственный интеллект помогает домашним роботам сократить время планирования в два раза
Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института
PIGINet новая система, которая направлена на эффективное расширение возможностей решения проблем домашних роботов. Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) используют машинное обучение, чтобы сократить типичный итеративный процесс планирования задач, который учитывает все возможные действия. PIGINet устраняет планы задач, которые не могут удовлетворить требования без столкновений, и сокращает время планирования на 50–80% при обучении только на 300–500 задачах. Как правило, роботы пробуют различные планы задач и итеративно совершенствуют свои движения, пока не найдут осуществимое решение, которое может быть неэффективным и трудоемким, особенно когда есть подвижные и шарнирные препятствия. Может быть, после приготовления, например, вы захотите положить все соусы в шкаф. Эта проблема может занять от двух до восьми шагов.
Нужно ли роботу открывать несколько дверей шкафа, или внутри шкафа есть какие-либо препятствия, которые необходимо переместить, чтобы освободить место? Вы же не хотите, чтобы ваш робот был раздражающе медленным — и будет хуже, если он сожжет ужин, пока думает.
Обычно считается, что домашние роботы следуют заранее определенным рецептам для выполнения задач, что не всегда подходит для разнообразных или меняющихся сред. Итак, как PIGINet избегает этих предопределенных правил? PIGINet — это нейронная сеть, которая принимает «планы, изображения, цель и начальные факты», а затем предсказывает вероятность того, что план задачи может быть уточнен, чтобы найти осуществимые планы движения.
Проще говоря, в нем используется энкодер-трансформатор, универсальная и современная модель, предназначенная для работы с последовательностями данных. Входной последовательностью в данном случае является информация о том, какой план задачи он рассматривает, образы окружающей среды и символические кодировки исходного состояния и желаемой цели. Кодировщик объединяет планы задач, изображение и текст для создания прогноза относительно осуществимости выбранного плана задачи.
Команда создала сотни смоделированных сред, каждая из которых имеет разные макеты и конкретные задачи, требующие перестановки объектов между прилавками, холодильниками, шкафами, раковинами и кастрюлями. Измеряя время, затрачиваемое на решение проблем, они сравнили PIGINet с предыдущими подходами. Один из правильных планов задач может включать в себя открытие левой дверцы холодильника, снятие крышки кастрюли, перемещение капусты из кастрюли в холодильник, перемещение картофеля в холодильник, поднятие бутылки из раковины, помещение бутылки в раковину, поднятие помидора или помещение помидора. PIGINet значительно сократил время планирования на 80% в более простых сценариях и на 20–50% в более сложных сценариях с более длинными последовательностями планов и меньшим количеством обучающих данных.
«Такие системы, как PIGINet, которые используют возможности методов, основанных на данных, для эффективной обработки знакомых случаев, но все еще могут опираться на методы планирования «первых принципов» для проверки предложений, основанных на обучении, и решения новых проблем, предлагают лучшее из обоих миров, обеспечивая надежные и эффективные решения общего назначения для широкого спектра проблем», - говорит профессор Массачусетского технологического института и главный исследователь CSAIL Лесли Пак Келблинг.
Использование PIGINet мультимодальных вложений во входную последовательность позволило лучше представить и понять сложные геометрические отношения. Использование данных изображения помогло модели понять пространственное расположение и конфигурации объектов, не зная 3D-сеток объекта для точной проверки столкновений, что позволило быстро принимать решения в различных средах.
Одной из основных проблем, с которыми пришлось столкнуться при разработке PIGINet, была нехватка хороших обучающих данных, поскольку все осуществимые и неосуществимые планы должны генерироваться традиционными планировщиками, что в первую очередь происходит медленно. Однако, используя предварительно обученные языковые модели зрения и приемы увеличения данных, команда смогла решить эту проблему, продемонстрировав впечатляющее сокращение времени планирования не только на проблемах с видимыми объектами, но и на обобщение нулевого выстрела на ранее невидимые объекты.
«Поскольку дом у всех разный, роботы должны быть адаптируемыми для решения проблем, а не просто последователями рецептов. Наша ключевая идея заключается в том, чтобы позволить планировщику задач общего назначения генерировать планы задач-кандидатов и использовать модель глубокого обучения для выбора перспективных. В результате получился более эффективный, адаптируемый и практичный бытовой робот, который может проворно ориентироваться даже в сложных и динамичных средах. Более того, практическое применение PIGINet не ограничивается домашними хозяйствами», — говорит Чжутянь Ян, аспирант MIT CSAIL и ведущий автор работы.
Нашли ошибку в тексте? Напишите нам.