4 мин. чтения
9/26/2023 11:41:59 AM

Исследователь находит способ получить аудио из неподвижных изображений и молчаливых видео

Article Preview Image Когда вы делаете фотографию на своем телефоне, вибрации вашего голоса могут создавать крошечные изгибы в свете, которые достаточно для извлечения звука, по словам Кевина Фу, профессора инженерии и компьютерных наук в Северо -восточном университете.Кредит: Мэтью Модуно/Северо -Восточный университет

Поскольку видеозвонки становятся все более распространенными в эпоху отдаленных и гибридных рабочих мест, «Мореть себя» и «Я думаю, что вы приглушены» стали частью наших повседневных словари.Но оказывается, что приглушение себя может быть не таким безопасным, как вы думаете.

Кевин Фу, профессор электрической и компьютерной инженерии и компьютерных наук в Северо -восточном университете, выяснил способ получить аудио с изображений и даже приглушенных видео.Используя боковой глаз, инструмент с помощью машинного обучения, который создал Фу и его исследовательская группа, Фу может определить пол человека, говорящего в комнате, где была сделана фотография, и даже точные слова, которые они говорили.

«Представьте себе, что кто -то снимает видео Tiktok, и они отключают его и дубруют музыку», - говорит Фу.«Вам когда -нибудь было любопытно, что они на самом деле говорят?Кто -то говорил позади них? Вы можете выбрать то, что говорят за камерой ».

Это звучит как научная фантастика - и это так.Идея по боковому глазу была вдохновлена эпизодом научно-фантастического шоу «Fringe», в котором главные герои, команда следователей Fringe Science, работающих в ФБР, извлекая звук из растопленной стеклянной панели.

Когда эпизод вышел в эфир, один критик Den of Geek назвал его «нелепой псевдоильной техникой».Фу не согласился.

«Я сказал:« Держу пари, мы можем это сделать », - говорит Фу.«Моя лаборатория специализируется на невозможном. Мы обычно ожидаем первой реакции на то, что мы делаем, чтобы быть« вы не можете этого сделать », и мы говорим:« Ну, мы уже сделали ».

Side Eye использует преимущества технологии стабилизации изображения, которая в настоящее время является практически стандартной для большинства телефонных камер.Чтобы убедиться, что шаткая рука не делает для размытой фотографии, камеры имеют небольшие пружины, которые держат объектив, подвешенную в жидкости.Электромагнит и датчики затем толкают объектив в равных и противоположных направлениях, чтобы уменьшить дрожь камеру.

Тем не менее, Фу говорит, что всякий раз, когда кто -то говорит возле объектива камеры, он вызывает крошечные вибрации в пружинах и слегка изгибает свет.Угол света меняется почти незаметно - «если вы не ищете его», - говорит Фу.

Обычно было бы трудно извлечь звуковую частоту из этих микроскопических вибраций.Но Фу говорит, что Rolling Shutter, метод фотографии, которую большинство телефонных камер сегодня используют, фактически облегчает достижение невозможного.

«То, как сегодня камеры работают, чтобы сократить стоимость в основном, заключается в том, что они не сканируют все пиксели изображения одновременно - они делают это по одному ряду за раз», - говорит Фу.«[Это происходит] сотни тысяч раз на одной фотографии. Что это в основном означает, что вы можете усилить более тысячи раз, какую частоту вы можете получить, в основном гранулярность звука».

Пока есть еще немного света, будет работать боковой глаз, хотя чем больше изображений он имеет доступ, тем лучше.Фу говорит, что даже фотография, нанесенная на потолок, позволит боковым глазам сделать свое дело.

Конечным результатом этого процесса является звук, который даже в лучшем случае звучит больше как приглушенный звук взрослых в мультфильмах арахиса.Но, используя машинное обучение и тренировочный глаз на определенные слова и аудио, FU может извлечь много информации.

«Если вы хотите знать, сказал ли я« да »или« нет », вы можете тренировать [боковой глаз] на людях, которые говорят« да »и« нет », а затем посмотреть на узоры и с высокой уверенностью, когда я получу изображение позже, знает, что кто -то сказал« да »или« нет »,“Фу говорит.

Боковой глаз может даже определить точного человека, который говорит, если он был обучен голосу этого человека, хотя Фу говорит, что это еще не так точно, когда дело доходит до этого.

С точки зрения кибербезопасности, боковой глаз открывает совершенно новый мир угроз, о котором должны знать люди и эксперты по кибербезопасности.Тем не менее, Фу говорит, что наиболее интересным применением для боковых глаз может быть новая форма цифровых доказательств для юристов и других, работающих в уголовной правовой системе.

«Может быть, есть алиби, и это допущено в суд, и кто -то хочет доказать, что кто -то был или нет», - говорит Фу.«Возможно, вы сможете использовать эту технику, если у вас есть аутентифицированное видео с известной меткой времени, чтобы подтвердить так или иначе. Если вы слышите голос человека, они, скорее всего, там, скорее всего».

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Моделями LLM легко манипулировать для предоставления ложной информацию

5/18/2024 · 4 мин. чтения

Моделями LLM легко манипулировать для предоставления ложной информацию

Образование в области кибербезопасности широко варьируется

5/8/2024 · 4 мин. чтения

Образование в области кибербезопасности широко варьируется