6 мин. чтения
6/19/2024 11:30:04 AM

Исследователи используют тени для моделирования трехмерных сцен, включая объекты, заблокированные от просмотра

Article Preview Image Plato-Snerf-это система компьютерного зрения, которая объединяет измерения LIDAR с машинным обучением для реконструкции трехмерной сцены, включая скрытые объекты, только из одного вида камеры, используя тени.Здесь система точно моделирует кролика в кресле, хотя этот кролик заблокирован от обзора.Кредит: Массачусетский технологический институт

Представьте себе, как проезжаете через туннель в автономном транспортном средстве, но без ведома, авария остановила движение вперед.Обычно вам нужно полагаться на машину перед вами, чтобы узнать, что вы должны начать торможение.Но что, если ваш автомобиль сможет увидеть вокруг машины впереди и нанести тормоза еще раньше?

Исследователи из MIT и Meta разработали технику компьютерного зрения, которая когда -нибудь может позволить автономному транспортному средству сделать это.

Они представили метод, который создает физически точные, 3D -модели всей сцены, включая области, заблокированные от просмотра, используя изображения из одного положения камеры.Их техника использует тени, чтобы определить, что лежит в затрудненных частях сцены.

Они называют свой подход Platonerf, основанный на аллегории Платона пещеры, отрывка из «Республики» греческого философа, в которой заключенные вковали в пещере, различают реальность внешнего мира, основанного на тенях, брошенных на стену пещеры.

Объединяя технологию LiDAR (обнаружение света и элитные) с машинным обучением, Platonerf может генерировать более точные реконструкции трехмерной геометрии, чем некоторые существующие методы ИИ.Кроме того, Platonerf лучше в плавно реконструкции сцен, где тени трудно увидеть, например, с высоким окружающим светом или темным фоном.

В дополнение к повышению безопасности автономных транспортных средств, Platonerf может сделать гарнитуры AR/VR более эффективными, позволяя пользователю моделировать геометрию комнаты без необходимости ходить вокруг измерений.Это также может помочь роботам склада быстрее найти предметы в загроможденных условиях.

«Наша ключевая идея заключалась в том, чтобы взять эти две вещи, которые были сделаны в разных дисциплинах и собирали их вместе - с большимИсследуйте и получите лучшее из обоих миров », - говорит Цофи Клингхоффер, аспирант MIT в области медиа -искусств и наук, филиал MIT Media Lab и ведущий автор статьи о Platonerf.

Клингхоффер написал статью со своим советником Рамешем Раскаром, доцентом кафедры медиа -искусств и наук и лидера группы по культуре камеры в MIT;Старший автор Ракеш Ранджан, директор исследований искусственного интеллекта в Meta Reality Labs;а также Сиддхарт Сомасундарам в Массачусетском технологическом институте, а также Сяою Сян, Ючен Фан и Кристиан Ричардт в Meta.Исследование представлено на конференции по компьютерному видению и распознаванию моделей, состоявшейся 17–21 июня.

Реконструкция полной 3D -сцены с одной точки зрения камеры является сложной проблемой.

В некоторых подходах машинного обучения используются генеративные модели ИИ, которые пытаются угадать, что лежит в окклюзированных регионах, но эти модели могут галлюцинировать объекты, которых на самом деле нет.Другие подходы пытаются вывести формы скрытых объектов, используя тени в цветном изображении, но эти методы могут бороться, когда тени трудно увидеть.

Для Platonerf исследователи MIT создали эти подходы, используя новую модальность зондирования, называемую однофотонным лидаром.Лидары отображают трехмерную сцену, излучая импульсы света и измерения времени, которое требует этого света, чтобы отскочить обратно к датчику.Поскольку однофотонные лидары могут обнаруживать отдельные фотоны, они предоставляют данные с более высоким разрешением.

Исследователи используют однофотонный лидар, чтобы осветить целевую точку на сцене.Некоторый свет отскакивает от этой точки и возвращается непосредственно к датчику.Тем не менее, большая часть света рассеивается и отскакивает от других объектов, прежде чем вернуться к датчику.Platonerf полагается на эти вторые отскоки от света.

Рассчитая, сколько времени требуется, чтобы дважды отскочить, а затем вернуться к датчику лидара, Platonerf фиксирует дополнительную информацию о сцене, включая глубину.Второй отскок света также содержит информацию о тени.

Система прослеживает вторичные лучи света - те, которые отскакивают от целевой точки к другим точкам сцены - чтобы определить, какие точки лежат в тени (из -за отсутствия света).Основываясь на расположении этих теней, Platonerf может вывести геометрию скрытых объектов.

Лидар последовательно освещает 16 баллов, захватывая несколько изображений, которые используются для реконструкции всей трехмерной сцены.

«Каждый раз, когда мы освещаем точку в сцене, мы создаем новые тени. Поскольку у нас есть все эти различные источники освещения, у нас есть много световых лучей, поэтому мы вычеркиваем регион, которая закупоривается и лежит за пределамиВидимый глаз », - говорит Клингхоффер.

Ключом к Platonerf является комбинация Lidar Multibounce с специальным типом модели машинного обучения, известной как поле нервного сияния (NERF).NERF кодирует геометрию сцены в веса нейронной сети, которая дает модели сильную способность интерполировать или оценить новые взгляды на сцену.

По словам Клингхоффера, эта способность интерполировать также приводит к высокой точной реконструкции сцены в сочетании с Multibounce Lidar.

«Самой большой проблемой было выяснение того, как объединить эти две вещи. Нам действительно пришлось думать о физике того, как свет транспортирует с помощью Multibounce Lidar и как моделировать это с помощью машинного обучения», - говорит он.

Они сравнили Platonerf с двумя общими альтернативными методами, которые используют только LiDAR, а другой - только NERF с цветным изображением.

Они обнаружили, что их метод смог превзойти оба метода, особенно когда датчик лидара имел более низкое разрешение.Это сделало бы их подход более практичным для развертывания в реальном мире, где датчики с более низким разрешением распространены в коммерческих устройствах.

«Около 15 лет назад наша группа изобрела первую камеру, чтобы« увидеть »по углам, которая работает, используя множество отходов света или« отголоски света ».Эти методы использовали специальные лазеры и датчики и использовали три отхода за светом.

«В этой новой работе используются только два отскока света, что означает, что отношение сигнала к шуму очень высокое, а качество 3D реконструкции впечатляет».

В будущем исследователи хотят попытаться отслеживать более двух отходов света, чтобы увидеть, как это может улучшить реконструкции сцены.Кроме того, они заинтересованы в применении более глубоких методов обучения и объединении планором с измерениями изображения цветного изображения для захвата информации о текстуре.

«В то время как изображения камеры теней давно изучались как средство для реконструкции 3D, эта работа пересматривает проблему в контексте лидара, демонстрируя значительные улучшения в точности реконструированной скрытой геометрии.В сочетании с обычными датчиками, включая лидарные системы, которые многие из нас сейчас несут в нашем кармане », - говорит Дэвид Линделл, доцент кафедры компьютерных наук в Университете Торонто, который не был связан с этой работой.

More information: PlatoNeRF: 3D Reconstruction in Plato’s Cave via Single-View Two-Bounce Lidar

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Новый инструмент обнаруживает фальшивые научные статьи, созданные AI

8/6/2024 · 6 мин. чтения

Новый инструмент обнаруживает фальшивые научные статьи, созданные AI

Новая технология повышает сжатие данных в реальном времени для ИИ

8/6/2024 · 6 мин. чтения

Новая технология повышает сжатие данных в реальном времени для ИИ

*Facebook, Instagram, Meta - запрещенные в РФ организации.