Достижения в области искусственного интеллекта и чипов улучшают распознавание голоса
14-нм аналоговый чип искусственного интеллекта в руке исследователя.Фото: Райан Лавин, IBM
Отдельные разработки в области технологий распознавания речи, разработанные IBM и калифорнийскими университетами в Сан-Франциско и Беркли, предлагают многообещающие новости для пациентов, страдающих голосовым параличом и потерей речи.
IBM сообщила о создании более быстрого и энергоэффективного компьютерного чипа, способного ускорить выдачу моделей распознавания речи.
С бурным ростом больших языковых моделей для проектов искусственного интеллекта стали очевидны ограничения производительности оборудования, ведущие к более длительным периодам обучения и резкому росту энергопотребления.
Что касается затрат энергии, MIT Technology Review недавно сообщил, что обучение одной модели искусственного интеллекта генерирует более 626 000 фунтов углекислого газа, что почти в пять раз больше, чем средний американский автомобиль выбрасывает за свою жизнь.
Ключевым фактором огромных затрат энергии при операциях ИИ является обмен данными между памятью и процессорами.
Исследователи IBM, ищущие решение, говорят, что их прототип включает в себя устройства памяти с фазовым изменением внутри чипа, оптимизируя фундаментальные процессы искусственного интеллекта, известные как операции множественного накопления (MAC), которые значительно ускоряют работу чипа.Это обходит стандартную трудоемкую процедуру транспортировки данных между памятью и процессором.
«Насколько нам известно, это первая демонстрация коммерчески значимых уровней точности коммерчески значимой модели», — заявил Стефано Амброджа из IBM в исследовании, опубликованном 23 августа в онлайн-журнале Nature.
«Наша работа показывает, что в сочетании с эффективной по времени, площади и энергопотреблению реализацией встроенных вспомогательных вычислений высокая энергоэффективность и пропускная способность… могут быть распространены на всю аналоговую систему искусственного интеллекта», — сказал он.
В ресурсоемких операциях по распознаванию речи прототип IBM достиг 12,4 триллионов операций в секунду на ватт, что в сотни раз выше, чем у самых мощных процессоров и графических процессоров, используемых в настоящее время.
Исследователи из Калифорнийского университета в Сан-Франциско и Калифорнийского университета в Беркли говорят, что они разработали интерфейс «мозг-компьютер» для людей, потерявших способность говорить, который генерирует слова на основе мыслей пользователя и усилий по вокализации.
Эдвард Чанг, заведующий отделением неврологической хирургии Калифорнийского университета в Сан-Франциско, сказал: «Наша цель — восстановить полноценный, воплощенный способ общения, который является для нас наиболее естественным способом общения с другими».
Чанг и его команда имплантировали два крошечных датчика на поверхность мозга женщины, страдающей боковым амиотрофическим склерозом, нейрогенеративным заболеванием, которое постепенно лишает своих жертв подвижности и речи.
Хотя субъект все еще могла произносить звуки, БАС ограничивал использование ее губ, языка и гортани для произнесения связных слов.
Датчики были подключены через интерфейс «мозг-компьютер» к группам компьютеров, на которых было установлено программное обеспечение для декодирования языка.
Женщина прошла 25 тренировок продолжительностью по четыре часа каждая, на которых она читала наборы из 260-480 предложений.Активность ее мозга во время чтения транслировалась декодером, который обнаруживал фонемы и собирал их в слова.
Затем исследователи синтезировали ее речь, основываясь на записи ее выступления на свадьбе несколькими годами ранее, и разработали аватар, отражающий движения ее лица.
Результаты были многообещающими.
После четырех месяцев обучения модель смогла отследить попытки испытуемого издать вокал и преобразовать их в понятные слова.
При использовании тренировочного словарного запаса в 125 000 слов, охватывающего практически все, что испытуемый хотел бы сказать, уровень точности составил 76%.
Когда словарный запас был ограничен 50 словами, система перевода работала намного лучше, правильно определяя ее речь в 90% случаев.
Кроме того, система смогла переводить речь субъекта со скоростью 62 слова в минуту.Хотя скорость распознавания слов в три раза выше, чем в предыдущих аналогичных экспериментах, исследователи понимают, что потребуются улучшения, чтобы достичь скорости естественной речи в 160 слов в минуту.
«Это научное доказательство концепции, а не реальное устройство, которое люди могут использовать в повседневной жизни», — сказал Фрэнк Уиллетт, соавтор исследования, опубликованного 23 августа в журнале Nature.«Но это большой шаг вперед в восстановлении быстрого общения людей с параличом, которые не могут говорить».
Больше информации: С. Амброджио и др., Аналоговый чип искусственного интеллекта для энергоэффективного распознавания и транскрипции речи, Nature (2023).DOI: 10.1038/s41586-023-06337-5
Хечен Ван, Аналоговый чип прокладывает путь к устойчивому искусственному интеллекту, Природа (2023 г.).DOI: 10.1038/d41586-023-02569-7
Нашли ошибку в тексте? Напишите нам.