4 мин. чтения
8/29/2023 10:41:32 AM

Достижения в области искусственного интеллекта и чипов улучшают распознавание голоса

Article Preview Image 14-нм аналоговый чип искусственного интеллекта в руке исследователя.Фото: Райан Лавин, IBM

Отдельные разработки в области технологий распознавания речи, разработанные IBM и калифорнийскими университетами в Сан-Франциско и Беркли, предлагают многообещающие новости для пациентов, страдающих голосовым параличом и потерей речи.

IBM сообщила о создании более быстрого и энергоэффективного компьютерного чипа, способного ускорить выдачу моделей распознавания речи.

С бурным ростом больших языковых моделей для проектов искусственного интеллекта стали очевидны ограничения производительности оборудования, ведущие к более длительным периодам обучения и резкому росту энергопотребления.

Что касается затрат энергии, MIT Technology Review недавно сообщил, что обучение одной модели искусственного интеллекта генерирует более 626 000 фунтов углекислого газа, что почти в пять раз больше, чем средний американский автомобиль выбрасывает за свою жизнь.

Ключевым фактором огромных затрат энергии при операциях ИИ является обмен данными между памятью и процессорами.

Исследователи IBM, ищущие решение, говорят, что их прототип включает в себя устройства памяти с фазовым изменением внутри чипа, оптимизируя фундаментальные процессы искусственного интеллекта, известные как операции множественного накопления (MAC), которые значительно ускоряют работу чипа.Это обходит стандартную трудоемкую процедуру транспортировки данных между памятью и процессором.

«Насколько нам известно, это первая демонстрация коммерчески значимых уровней точности коммерчески значимой модели», — заявил Стефано Амброджа из IBM в исследовании, опубликованном 23 августа в онлайн-журнале Nature.

«Наша работа показывает, что в сочетании с эффективной по времени, площади и энергопотреблению реализацией встроенных вспомогательных вычислений высокая энергоэффективность и пропускная способность… могут быть распространены на всю аналоговую систему искусственного интеллекта», — сказал он.

В ресурсоемких операциях по распознаванию речи прототип IBM достиг 12,4 триллионов операций в секунду на ватт, что в сотни раз выше, чем у самых мощных процессоров и графических процессоров, используемых в настоящее время.

Исследователи из Калифорнийского университета в Сан-Франциско и Калифорнийского университета в Беркли говорят, что они разработали интерфейс «мозг-компьютер» для людей, потерявших способность говорить, который генерирует слова на основе мыслей пользователя и усилий по вокализации.

Эдвард Чанг, заведующий отделением неврологической хирургии Калифорнийского университета в Сан-Франциско, сказал: «Наша цель — восстановить полноценный, воплощенный способ общения, который является для нас наиболее естественным способом общения с другими».

Чанг и его команда имплантировали два крошечных датчика на поверхность мозга женщины, страдающей боковым амиотрофическим склерозом, нейрогенеративным заболеванием, которое постепенно лишает своих жертв подвижности и речи.

Хотя субъект все еще могла произносить звуки, БАС ограничивал использование ее губ, языка и гортани для произнесения связных слов.

Датчики были подключены через интерфейс «мозг-компьютер» к группам компьютеров, на которых было установлено программное обеспечение для декодирования языка.

Женщина прошла 25 тренировок продолжительностью по четыре часа каждая, на которых она читала наборы из 260-480 предложений.Активность ее мозга во время чтения транслировалась декодером, который обнаруживал фонемы и собирал их в слова.

Затем исследователи синтезировали ее речь, основываясь на записи ее выступления на свадьбе несколькими годами ранее, и разработали аватар, отражающий движения ее лица.

Результаты были многообещающими.

После четырех месяцев обучения модель смогла отследить попытки испытуемого издать вокал и преобразовать их в понятные слова.

При использовании тренировочного словарного запаса в 125 000 слов, охватывающего практически все, что испытуемый хотел бы сказать, уровень точности составил 76%.

Когда словарный запас был ограничен 50 словами, система перевода работала намного лучше, правильно определяя ее речь в 90% случаев.

Кроме того, система смогла переводить речь субъекта со скоростью 62 слова в минуту.Хотя скорость распознавания слов в три раза выше, чем в предыдущих аналогичных экспериментах, исследователи понимают, что потребуются улучшения, чтобы достичь скорости естественной речи в 160 слов в минуту.

«Это научное доказательство концепции, а не реальное устройство, которое люди могут использовать в повседневной жизни», — сказал Фрэнк Уиллетт, соавтор исследования, опубликованного 23 августа в журнале Nature.«Но это большой шаг вперед в восстановлении быстрого общения людей с параличом, которые не могут говорить».

Больше информации: С. Амброджио и др., Аналоговый чип искусственного интеллекта для энергоэффективного распознавания и транскрипции речи, Nature (2023).DOI: 10.1038/s41586-023-06337-5

Хечен Ван, Аналоговый чип прокладывает путь к устойчивому искусственному интеллекту, Природа (2023 г.).DOI: 10.1038/d41586-023-02569-7

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Легкое носимое устройство помогает пользователям перемещаться с помощью прикосновения к запястью.

8/30/2023 · 4 мин. чтения

Легкое носимое устройство помогает пользователям перемещаться с помощью прикосновения к запястью.

Ученые предлагают выходить за рамки аппаратного обеспечения для улучшения солнечной и других технологий чистой энергии

8/18/2023 · 4 мин. чтения

Ученые предлагают выходить за рамки аппаратного обеспечения для улучшения солнечной и других технологий чистой энергии