Программисты разрабатывают способ запуска языковых моделей ИИ без матричных умножений
Обзор LM без мамуль.Последовательность операций показана для самоучасти в ванили (верхняя левая), токен без мамуля (верхний правый) и тройные скопления.В LM без мамуль используется токен-микшер без мамуль (MLGRU) и промежуточный микшер без мамуль (без мамуль Glu) для поддержания трансформаторной архитектуры, снижая при этом вычислительные затраты.Кредит: Arxiv (2024).Doi: 10.48550/arxiv.2406.02528
По мере роста мощности LLM, таких как CHATGPT, также есть вычислительные ресурсы, которые им требуются.Часть процесса запуска LLMS включает выполнение умножения матрицы (Matmul), где данные объединяются с весами в нейронных сетях, чтобы дать вероятные ответы на запросы.
На ранних этапах ИИ исследователи обнаружили, что графические единицы обработки (графические процессоры) идеально подходят для приложений нейронной сети, поскольку они могут одновременно запускать несколько процессов - в этом случае множество матмулов.Но теперь, даже с огромными кластерами графических процессоров, матмулы стали узкими местами, поскольку сила LLM растет вместе с количеством людей, использующих их.
В этом новом исследовании исследовательская группа утверждает, что разработала способ запуска языковых моделей ИИ без необходимости выполнять матмулы и делать это так же эффективно.
Чтобы достичь этого подвига, исследовательская группа приняла новый подход к тому, как взвешены данные-они заменили текущий метод, который опирается на 16-битные плавающие точки, на которых используется всего три: {-1, 0, 1} вместе с новыми функциямиЭто выполняет те же типы операций, что и предыдущий метод.
Они также разработали новые методы квантования, которые помогли повысить производительность.С меньшим количеством весов требуется меньше обработки, что приводит к необходимости меньшей вычислительной мощности.Но они также радикально изменили способ обработки LLM с использованием того, что они описывают в качестве линейной линейной рецидивирующей единицы (MLGRU) без мамуль.
Испытывая свои новые идеи, исследователи обнаружили, что система, использующая их новый подход, достигла показателя, которая была на одном уровне с современными системами, используемыми в настоящее время.В то же время они обнаружили, что их система использовала гораздо меньшую вычислительную мощность и электричество, чем обычно в традиционных системах.
More information: Rui-Jie Zhu et al, Scalable MatMul-free Language Modeling, arXiv (2024). DOI: 10.48550/arxiv.2406.02528
Нашли ошибку в тексте? Напишите нам.