Новый способ позволить AI чат-ботам общаться весь день без сбоев
Кредит: Кристина Данилофф, MIT
Когда человеческий-айлрн включает в себя множество раундов непрерывного диалога, мощные модели с большим языком машинного обучения, которые стимулируют чат-боты, такие как Chatgpt, иногда начинают разрушаться, что приводит к быстрому ухудшению производительности ботов.
Команда исследователей из MIT и в других местах определила удивительную причину этой проблемы и разработала простое решение, которое позволяет чат -боту поддерживать безостановочный LRNч без сбоя или замедления.
Их метод включает в себя настройку кэша ключа (который похож на память LRNч) в основе многих крупных языковых моделей.В некоторых методах, когда этот кэш должен содержать больше информации, чем он способен, первые части данных вытекают.Это может привести к выходу из строя модели.
Убедившись, что эти первые несколько точек данных оставались в памяти, метод исследователей позволяет чат -боту продолжать чат независимо от того, как долго проходит Лрн.
Метод, называемый StreamingllM, позволяет модели оставаться эффективной, даже когда LRNч простирается на более чем 4 миллиона слов.По сравнению с другим методом, который позволяет избежать сбоя, постоянно пересматривая часть прошлого LRNчs, StreamingLLM выполнялась более чем в 22 раза быстрее.
Это может позволить чат -боту проводить длинные LRNчs на протяжении всего рабочего дня без необходимости постоянно перезагруженного, что позволяет эффективным помощникам искусственного интеллекта для таких задач, как копирайтинг, редактирование или генерация кода.
«Теперь, с этим методом, мы можем постоянно развернуть эти большие языковые модели. Сделав чат -бот, с которым мы всегда можем общаться, и это всегда может реагировать на нас на основе наших недавних LRNч, мы могли бы использовать эти чат -боты в некоторых новых приложениях,«Говорит Гуанксуань Сяо, аспирант по электротехнике и компьютерным наукам (EECS) и ведущий автор статьи о Streamingllm, который теперь размещен на сервере Arxiv Preprint.
Среди соавторов Сяо его советник Сонг Хан, доцент в EECS, член лаборатории MIT-IBM Watson AI и выдающийся ученый NVIDIA;а также Юандонг Тянь, научный сотрудник Meta AI;Бейди Чен, доцент университета Карнеги -Меллона;и старший автор Майк Льюис, научный сотрудник Meta AI.Работа будет представлена на Международной конференции по обучению, состоявшейся 7–11 мая в Вене.
Большие языковые модели кодируют данные, такие как слова в пользовательском запросе, в представления, называемые токенами.Многие модели используют так называемый механизм внимания, который использует эти токены для создания нового текста.
Как правило, AI Chatbot пишет новый текст на основе текста, который он только что увидел, поэтому он хранит последние токены в памяти, называемый кэш KV, который можно использовать позже.Механизм внимания создает сетку, которая включает в себя все токены в кэше, «карту внимания», которая отображает, насколько сильно каждый токен или слово относится друг к другу.
Понимание этих отношений является одной из функций, которая позволяет крупным языковым моделям генерировать человеческий текст.
Но когда кэш становится очень большим, карта внимания может стать еще более массивной, что замедляет вычисления.
Кроме того, если кодирование контента требует большего количества токенов, чем может удерживать кэш, производительность модели падает.Например, одна популярная модель может хранить 4096 жетонов, но в академической документе насчитывается около 10 000 токенов.
Чтобы обойти эти проблемы, исследователи используют «скользящий кеш», который выбивает самые старые жетоны, чтобы добавить новые токены.Тем не менее, производительность модели часто падает, как только этот первый жетенинг выселяется, быстро снижая качество вновь сгенерированных слов.
В этой новой статье исследователи поняли, что если они сохранят первый жетон в скользящем кеше, модель будет сохранять свою производительность, даже если размер кэша будет превышен.
Но это не имело никакого смысла.Первое слово в романе, вероятно, не имеет ничего общего с последним словом, так почему первое слово будет так важным для модели, чтобы генерировать новейшее слово?
В своей новой статье исследователи также обнаружили причину этого явления.
Некоторые модели используют операцию Softmax в своем механизме внимания, которая назначает оценку каждому токену, которая представляет то, насколько он относится друг к другу.Работа Softmax требует, чтобы все оценки внимания суммировали до 1. Поскольку большинство токенов не сильно связаны, их оценки внимания очень низкие.Модель сбрасывает любой оставшийся балл внимания в первом токене.
Исследователи называют это первым, «утопление внимания».
«Нам нужна точка внимания, и модель решает использовать первый токен, так как внимание погружается, потому что оно глобально видимо - каждый другой токен может видеть его. Мы обнаружили, что мы всегда должны держать в кэше, чтобы поддерживать модель поддерживать модель.Динамика, - говорит Хан.
В здании Streamingllm исследователи обнаружили, что наличие четырех токенов с точки зрения внимания в начале скользящего кэша приводит к оптимальной производительности.
Они также обнаружили, что позиционное кодирование каждого токена должно оставаться неизменным, даже если добавляются новые жетоны, а другие выталкиваются.Если токен 5 вытекает, токен 6 должен оставаться закодированным как 6, даже если теперь это пятый токен в кэше.
Объединив эти две идеи, они позволили Streamingllm поддерживать непрерывный LRNч, превысив популярный метод, который использует рекомпьютерную работу.
Например, когда кэш имеет 256 токенов, метод рециркуляции занимает 63 миллисекунд для декодирования нового токена, в то время как Streamingllm занимает 31 миллисекунд.Однако, если размер кэша увеличивается до 4096 токенов, рецидив требуется 1411 миллисекунд для нового токена, в то время как Streamingllm требует всего 65 миллисекунд.
«Инновационный подход Streamingllm, сосредоточенный на механизме поглощения внимания, обеспечивает стабильное использование памяти и производительность, даже при обработке текстов до 4 миллионов токенов в длину», - говорит Ян, президент молодой профессор компьютерных наук в Национальном университетеСингапур, который не был связан с этой работой.
«Эта возможность не просто впечатляет; она преобразует, что позволяет применять потоковую передачу в широком спектре приложений ИИ. Производительность и универсальность потоковой передачи отмечают его как высокообладающую технологию, которая готова революционизировать, как мы приближаемся к приложениям для создания искусственного интеллекта.”
Tianqi Chen, доцент кафедры машинного обучения и компьютерных наук в Университете Карнеги -Меллона, который также не участвовал в этом исследовании, согласился, заявив, что «потоковая LLM обеспечивает плавное расширение длины LRNч крупных языковых моделей. Мы используем модели. Мы используем.Это для того, чтобы с большим успехом внедрить модели Mistral на iPhone ».
Исследователи также исследовали использование поглотителей внимания во время модельной подготовки, составив несколько токенов заполнителей во всех образцах обучения.
Они обнаружили, что обучение с уколоками внимания позволило модели поддерживать производительность только с одним вниманием в его кеше, а не четыре, которые обычно требуются для стабилизации производительности предварительной модели.
Но в то время как StreamingllM позволяет модели проводить непрерывный LRNч, модель не может вспомнить слова, которые не хранятся в кэше.В будущем исследователи планируют ориентироваться на это ограничение, исследуя методы для извлечения токенов, которые были выселены или позволяют модели запоминать предыдущие LRNч.
Больше информации: Guangxuan Xiao et al., Эффективные модели потокового языка с поглотителями внимания, Arxiv (2023).Doi: 10.48550/arxiv.2309.17453
Эта история переиздана любезно предоставлена MIT News (web.mit.edu/newsoffice/), популярный сайт, который охватывает новости о исследованиях, инновациях и преподавании MIT.
Нашли ошибку в тексте? Напишите нам.