Использование идей из теории игр для повышения надежности языковых моделей
(Слева) Обзор нашего подхода.(Справа) Структура консенсусной игры, последовательной сигнальной игры двойной сигнализации с несовершенной информацией.Кредит: Arxiv (2023).Doi: 10.48550/arxiv.2310.09139
Исследователи по информатике и искусственному интеллекту (CSAIL) MIT (CSAIL) создали аналогичную «игру», чтобы помочь улучшить то, как ИИ понимает и генерирует текст.Он известен как «консенсусная игра» и включает в себя две части системы ИИ - одна часть пытается генерировать предложения (например, предоставление подсказок), а другая часть пытается понять и оценить эти предложения (например, угадать секретное сообщение).
Исследователи обнаружили, что, рассматривая это взаимодействие как игру, когда обе части ИИ работают вместе в соответствии с конкретными правилами, чтобы договориться о правильном сообщении, они могут значительно улучшить способность ИИ давать правильные и последовательные ответы на вопросы.
Они проверили этот новый игровой подход на различных задачах, таких как понимание прочитанного, решение математических задач и продолжение LRNчS, и обнаружили, что он помог ИИ работать лучше по всем направлениям.Их статья опубликована на сервере Arxiv Preprint.
Традиционно, крупные языковые модели отвечают на один из двух способов: генерирование ответов непосредственно из модели (генеративное запросы) или использование модели для оценки набора предопределенных ответов (дискриминационное запросы), что может привести к различным и иногда несовместимым результатам.
С генеративным подходом «кто президент Соединенных Штатов?»Может дать прямой ответ, такой как «Джо Байден».Однако дискриминационный запрос может неправильно оспорить этот факт при оценке того же ответа, например, «Барак Обама».
Итак, как мы можем примирить взаимно несовместимые процедуры оценки для достижения когерентных, эффективных прогнозов?
«Представьте себе новый способ помочь языковым моделям понять и генерировать текст, например, игра. Мы разработали беззаботный теоретичный метод, который рассматривает весь процесс как сложную игру подсказок и сигналов, где генератор пытаетсяОтправьте правильное сообщение дискриминатору, используя естественный язык.Студент по электротехнике и информатике и филиалу CSAIL.
«Наш способ ориентироваться в этой игре - найти« приблизительные равновесия », что приводит к новому алгоритму декодирования, называемому« рейтинг равновесия ».Это довольно захватывающая демонстрация того, как внедрение теоретиков игры в микс может решить некоторые большие проблемы в создании языковых моделей более надежными и последовательными ».
При тестировании во многих задачах, таких как понимание прочитанного, рассуждения здравого смысла, математические проблемы и диалог, алгоритм команды постоянно улучшал, насколько хорошо выполнялись эти модели.Используя алгоритм ER с моделью Llama-7B, даже затмил результаты гораздо более крупных моделей.
«Учитывая, что они уже конкурентоспособны, люди некоторое время работали над этим, но уровень улучшений, которые мы видели, способны превзойти модель, которая в 10 раз больше, был приятным сюрпризом», - говорит Джейкоб.
«Дипломатия», стратегическая настольная игра в Европе до мировой войны, где игроки договариваются о альянсах, предают друзьях и завоевывают территории без использования костей-в том, что они навыки, стратегии и межличностные манипуляции-оно было второе местоАнкет
В ноябре 2022 года компьютерные ученые, включая Джейкоба, разработали «Цицерона», агента искусственного интеллекта, который достигает возможностей на уровне человека в игре с семью игроками смешанного мотива, которая требует тех же вышеупомянутых навыков, но с естественным языком.Математика, стоящая за этой частично вдохновила на консенсусную игру.
В то время как история AI-агентов давно предшествует, когда программное обеспечение Openai вступило в чат в ноябре 2022 года, хорошо задокументировано, что они все еще могут косплей как ваш благонамеренный, но патологический друг.
Консенсусная игровая система достигает равновесия в качестве соглашения, обеспечивая точность и верность оригинальной информации модели.Чтобы достичь этого, метод итеративно корректирует взаимодействие между генеративными и дискриминационными компонентами, пока они не достигнут консенсуса по ответу, который точно отражает реальность и соответствует их первоначальным убеждениям.Этот подход эффективно устраняет разрыв между двумя методами запроса.
На практике внедрение консенсусного игрового подхода к языковой модели запроса, особенно для задач, отвечающих вопросам, включает в себя значительные вычислительные проблемы.Например, при использовании наборов данных, таких как MMLU, у которых есть тысячи вопросов и ответы с множественным выбором, модель должна применить механизм к каждому запросу.Затем он должен достичь консенсуса между генеративными и дискриминационными компонентами для каждого вопроса и его возможными ответами.
Система действительно боролась с правом начальной школы на прохождение: проблемы с математическим словом.Это не могло генерировать неправильные ответы, что является критическим компонентом понимания процесса придумывания правильного.
«В последние несколько лет был действительно впечатляющий прогресс как в принятии стратегических решений, так и в генерации языка из систем ИИ, но мы только начинаем выяснять, как собрать их вместе. Равновесие рейтинг-первый шаг в этом направлении, ноЯ думаю, что есть многое, мы сможем сделать это, чтобы сократить это до более сложных проблем », - говорит Джейкоб.
Проход будущей работы включает в себя улучшение базовой модели путем интеграции выходов текущего метода.Это особенно многообещающе, поскольку он может дать более фактические и последовательные ответы по различным задачам, включая фактическую и открытую поколение.Потенциал для такого метода для значительного улучшения производительности базовой модели высок, что может привести к более надежным и фактическим результатам от CHATGPT и аналогичных языковых моделей, которые люди используют ежедневно.
«Несмотря на то, что современные языковые модели, такие как CHATGPT и Gemini, привели к решению различных задач через интерфейсы чата, процесс статистического декодирования, который генерирует ответ от таких моделей, оставался неизменным на протяжении десятилетий», - говорит ученый Google Ahmad Beirami, который был неизменным », - говорит ученый Google Ахмад Бейрами, который был неизменным», - говорит ученый Google Ахмад Бейрами, который оставался неизменным », - говорит ученый Google Ахмад Бейрами, который оставался неизменным», - говорит ученый Google Ахмад Бейрами, который оставался неизменным », - говорит ученый Google Ахмад Бейрамине участвует в работе.
“Предложение исследователей MIT является инновационной теоретикой игры, теоретичной рамки для декодирования от языковых моделей путем решения равновесия консенсусной игры. Значительные результаты, о которых сообщается в исследовательской статье, являются многообещающими, открывая дверь для потенциального сдвига парадигма на языкеДекодирование модели, которая может подпитывать поток новых приложений ».
Больше информации: Атул Пол Джейкоб и др., Консенсусная игра: генерация языковой модели с помощью равновесного поиска, Arxiv (2023).Doi: 10.48550/arxiv.2310.09139
Нашли ошибку в тексте? Напишите нам.