5 мин. чтения
7/15/2023 11:53:13 AM

Нейролянджело - пробуди цифрового Микеланджело с помощью смартфона

До недавнего времени 3D-реконструкция поверхности была относительно медленным и кропотливым процессом, включающим значительные пробы, ошибки и ручной ввод. Но что, если бы вы могли снять объект или сцену с помощью своего смартфона и превратить его в точную, детализированную модель, как мастер-скульптор создает шедевры из мрамора или глины? Его создатели утверждают, что метко названный Neuralangelo делает именно это с помощью нейронных сетей и с субмиллиметровой точностью.

Featured Image 1 Слева направо: скульптура Микеланджело «Давид», карта нормалей Neuralangelo и 3D-сетка. Кредит: NVIDIA

Совместный проект исследователей из Департамента компьютерных наук Инженерной школы Уайтинга и технологического гиганта NVIDIA, этот высокоточный алгоритм реконструкции нейронных поверхностей может точно отображать формы повседневных предметов, известных статуй, знакомых зданий и целых сред только из видео со смартфона или кадра с дрона без необходимости дополнительного ввода. Их результаты были представлены на сервере препринтов arXiv.

Алгоритмы, которые обеспечивают среду виртуальной реальности, автономную навигацию роботов и интеллектуальные операционные, имеют одно фундаментальное требование: они должны иметь возможность обрабатывать и точно интерпретировать информацию из реального мира, чтобы работать правильно. Этот вид знаний достигается с помощью 3D-реконструкции поверхности, в которой алгоритм берет несколько 2D-изображений с разных точек зрения для рендеринга реальной среды таким образом, чтобы другие программы могли распознавать и манипулировать.

Проект Neuralangelo был инициирован Чжаошо «Максом» Ли, который получил степень магистра компьютерных наук в Школе Уайтинга в 2019 году, а затем докторскую степень в области компьютерных наук в 2023 году, во время его стажировки летом 2022 года в NVIDIA, где он сейчас является научным сотрудником. Его цель состояла не только в том, чтобы улучшить существующие методы 3D-реконструкции, но и в том, чтобы сделать их доступными для всех, у кого есть смартфон.

«Как мы можем получить такое же понимание 3D-среды, как люди, используя дешевое видео, тем самым делая эту технологию доступной для всех?» — спросил он.

Работая с консультантами Университета Джона Хопкинса Расселом Тейлором, профессором компьютерных наук Джона К. Мэлоуна, и Матиасом Унбератом, доцентом кафедры компьютерных наук, а также исследователями NVIDIA Томасом Мюллером и Алексом Эвансом, менеджером проекта Минг-Ю Лю и наставником стажировки Чэнь-Сюань Линем, Ли решил демократизировать 3D-реконструкцию поверхности.

Первым шагом команды в создании Neuralangelo было решение проблем, с которыми сталкивались более ранние алгоритмы реконструкции при рендеринге больших областей однородных цветов, повторяющихся текстурных узоров и сильных цветовых вариаций. Поскольку традиционные алгоритмы используют аналитические градиенты, которые смотрят и сравнивают только участки локальных пикселей за раз, они производят неточные реконструкции с «шумными» поверхностями — например, с каплями, плавающими над крышей — или отсутствующими, с отверстиями в том, что должно быть сплошной кирпичной стеной.

«Самое простое решение — добавить ручной ввод, — объясняет Ли. «И тогда вы получаете лучшие результаты, но не на уровне Neuralangelo».

Featured Image 2 Слева направо: RGB-рендеринг Neuralangelo, вывод поверхности 3D-сетки и карта нормалей Шрайвер-Холла. Предоставлено: Университет Джона Хопкинса

Вместо увеличения человеческих усилий, команда Neuralangelo обратилась к корню проблемы, решив использовать числовые градиенты в своем представлении хеш-сетки с несколькими разрешениями, что значительно улучшило качество реконструкции алгоритма. Это означает, что Neuralangelo выходит за рамки локальных пикселей и использует более целостный подход для повышения резкости и улучшения детализированных поверхностей и дальнейшего сглаживания плоских, сохраняя при этом все важные детали сцены, заявляет команда.

Исследователи также внедрили процесс грубой и тонкой оптимизации. Подобно скульптору, вырезающему все более и более тонкие детали из куска мрамора, алгоритм начинает с грубого хэш-разрешения — изображает грубую, приблизительную оценку объекта или сцены — а затем постепенно увеличивает разрешение, чтобы «вырезать» более мелкие детали и сложности, пока не достигнет высокоточной, реалистичной 3D-реконструкции.

Затем они перешли к адаптации алгоритма для извлечения изображений из 2D-видео, снятых вручную. Там, где традиционные алгоритмы страдают при столкновении с видеоартефактами, такими как вариации экспозиции, такие как переход от прямых солнечных лучей к сильной тени, архитектура Neuralangelo по своей сути позволяет ему приспосабливаться к таким изменениям, которые естественным образом возникают при реалистичном захвате видео, объясняет Ли.

Для съемки операционной, уличной сцены или комнаты в вашем доме не требуется никакого причудливого измерительного устройства, такого как лидар, который часто стоит сотни или тысячи долларов; По словам Ли, вы можете добиться такого же качества рендеринга только с помощью камеры смартфона.

По словам Ли, качество входного видео по-прежнему влияет на конечный результат, но смартфоны, дроны и профессиональные камеры работают.

«Я говорю людям: «Мусор на входе, мусор на выходе», — говорит он. «Но это в значительной степени верно для любого ввода алгоритма».

Neuralangelo по-прежнему борется с поверхностями с высокой отражающей способностью. Из-за своей высокой репрезентативной способности он имеет тенденцию полностью реконструировать сцены, отраженные в зеркальных поверхностях, делая что-то больше похожее на диораму, чем на плоское стекло, но исследовательская группа NVIDIA говорит, что они уже работают над решением этой проблемы. Ли также надеется, что благодаря общедоступному исходному коду он и более широкое сообщество компьютерной графики смогут оптимизировать алгоритм, чтобы получить результаты в течение нескольких минут.

Featured Image 3 Качественное сравнение COLMAP, базового подхода с отсутствующими и зашумленными поверхностями, и Neuralangelo. Автор: NVIDIA

В то же время Neuralangelo хвалят как захватывающую разработку для энтузиастов 3D-печати, дизайнеров видеоигр и CGI-активов, а также для использования в хирургических приложениях. Ли даже использовал Неураланджело в своей диссертации, используя его для создания высокоточной реконструкции черепа пациента для использования во время сложной операции на основании черепа.

Он предвидит будущие приложения дополненной реальности, которые предупреждают хирургов об их близости к мозгу пациента, как предупреждения о близости пешеходов в беспилотных автомобилях.

«Для людей очень трудно количественно оценить конкретные расстояния — говорим ли мы о метрах или точности в миллиметрах, — но алгоритмы могут обеспечить такие дополнительные наборы навыков», — объясняет он.

Команда Neuralangelo представила свои выводы в конце июня на конференции по компьютерному зрению и распознаванию образов 2023 года в Ванкувере, Канада, и Ли говорит, что будущее алгоритма уже вызывает большой интерес.

Подробнее: Zhaoshuo Li et al, Neuralangelo: High-Fidelity Neural Surface Reconstruction, arXiv (2023). DOI: 10.48550/arxiv.2306.03092 🔗

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Самая страшная тайна ИИ

7/31/2023 · 5 мин. чтения

Самая страшная тайна ИИ

Исследователи впервые успешно обучили модель машинного обучения в открытом космосе

7/30/2023 · 5 мин. чтения

Исследователи впервые успешно обучили модель машинного обучения в открытом космосе