4 мин. чтения
6/22/2024 6:51:06 AM

Студент создал ИИ инструмент, чтобы оживить исчезающие языки коренных народов

Article Preview Image Весь процесс перевода с английского на OVP.Кредит: Arxiv (2024).Doi: 10.48550/arxiv.2405.08997

Кришнамачари вырос в Индии, говоря о тамильском, хинди и английском языке и начал изучать французский и мандаринский китайский язык в колледже.Коулман, который был воспитан англоязычным, любил испанский в старшей школе и изучил португальцев у своей жены и друзей в колледже.

Во время пандемии Коулман начал посещать онлайн-классы на менее известном языке: Оуэнс Вэлли Пайтут.Коулман является членом племени Большой Пайн -Пайуте в долине Оуэнс - его отец, Давид, вырос в резервации племени в Большой Пайн, Калифорния, а Пайуте - его наследственный язык.

CHATGPT и другие крупные языковые модели (LLMS) демонстрируют выступление на уровне человека во многих естественных задачах на английском языке, потому что одна пятая в мире говорит по-английски.То же самое относится и к другим широко используемым языкам.Но Пайуте считается «языком без ресурсов», что означает, что нет общедоступных предложений Paiute, переведенных на английский язык для обучения модели машинного обучения.

В новой статье «машинный перевод на основе правил, основанный на правилах для языков с низким содержанием/без ресурсов», появляющийся на сервере до печати Arxiv, Coleman и Krishnamachari предлагает подход к машинному переводу под названием LLM-RBMT (на основе правил перевод машинного перевода) помочь людям изучать языки без ресурсов.Соавторами статьи являются Халил Искарус, доцент лингвистики USC USC, и Рубен Росалес, независимый исследователь.

Их подход состоит из более «старых школ» инструментов переводчика, основанных на правилах и более продвинутых, на основе естественного языка LLM.В методе исследователей LLM не переводится в или из Owens Valley Paiute.Вместо этого он помогает направлять переводчиков, основанных на правилах, которые полагаются на грамматические и словарные правила для перевода между языками.

«По сути, LLM действует как сложный посредник, используя его усовершенствованное понимание языка, чтобы убедиться, что система, основанная на правилах, производит точные переводы»,-сказал Коулман.

Инструмент перевода упрощает сложные предложения и использует заполнители (в данном случае английские слова) для неизвестных слов.Хотя этот процесс теряет некоторое значение, он по -прежнему производит понятные и грамматически правильные переводы.

Этот метод сказал Коулман, отражает, как изучающие язык, естественно, говорят, смешивая известные и неизвестные слова, что делает его практическим инструментом для реального использования.

«Инструмент достаточно умный, учитывая несколько подсказок, чтобы иметь возможность сделать много перевода самостоятельно», - добавляет Кришнамачари.

Коулман также построил и поддерживает набор цифровых инструментов, связанных с оживленным языком, названным Кубиши или «мозгом» в Пайуте, включая онлайн-словарь и систему предложения и системы перевода, включенную в этом исследовании.

В целом, статья, которая будет представлена ​​на семинаре NAACL в AmericasNLP, показала, что замечательные языковые навыки LLM делают их перспективным инструментом, помогая оживить критические находящиеся под угрозой исчезновения языки.

Со своей стороны, Коулман приписывает членам своего племени, прошло и настоящему, за то, что он проложил путь.«Многие люди в моем племени долгое время работали над различными усилиями по восстановлению языка, включая классы, словарки, записи», - сказал Коулман.«Так что, как и я, взволнован этим исследованием, я знаю, что это одна часть гораздо большей головоломки».

Действительно, статья указывает на многие направления для будущей работы, включая добавление более сложных структур предложений, чтобы проверить пределы методологии, изложенной в его статье.Кроме того, это и личное, и академическое достижение для Коулмана, который присоединится к Университету Лойолы Мэримаунт в качестве доцента в области компьютерных наук этой осенью.

«Мой папа не вырос, говоря о языке - как и многие семьи, он был вынужден не использовать школы -интернаты, где выступление на языке запрещено», - сказал Коулман.

«Мне повезло, что мои прадедушки и дедушки сели с лингвистами, чтобы задокументировать язык и создать записи, чтобы я мог слышать их голоса и слова. И теперь, чтобы послушать моего прадеда и знать, что он говорит, что-то оченьлично удовлетворяет это “.

More information: Jared Coleman et al, LLM-Assisted Rule Based Machine Translation for Low/No-Resource Languages, arXiv (2024). DOI: 10.48550/arxiv.2405.08997

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Фреймворк для объединения ИИ и человеческого интеллекта для безопасности процессов

7/21/2024 · 4 мин. чтения

Фреймворк для объединения ИИ и человеческого интеллекта для безопасности процессов

Крупные языковые модели совершают ошибки рассуждений, подобно человеку

7/17/2024 · 4 мин. чтения

Крупные языковые модели совершают ошибки рассуждений, подобно человеку