7 мин. чтения
10/31/2023 9:15:21 AM

Новые методы эффективно ускоряют развернутые тензоры для массивных моделей ИИ

Article Preview Image Исследователи из MIT и NVIDIA разработали два дополнительных метода, которые могут значительно повысить скорость и производительность высокопроизводительных вычислительных приложений, таких как графическая аналитика или генеративный ИИ.Оба новых метода стремятся эффективно использовать разреженные ценности - в носовых ценностях - в тензорах.Кредит: Изображение: Хосе-Луис Оливарес, MIT

Исследователи из MIT и NVIDIA разработали два метода, которые ускоряют обработку редких тензоров, тип структуры данных, которая используется для высокопроизводительных вычислительных задач.Дополнительные методы могут привести к значительному улучшению производительности и энергоэффективности систем, таких как массивные модели машинного обучения, которые стимулируют генеративный искусственный интеллект.

Тензоры-это структуры данных, используемые моделями машинного обучения.Оба новых метода стремятся эффективно использовать то, что известно как разреженность - нортные ценности - в тензорах.При обработке этих тензоров можно пропустить нули и сохранить как вычисления, так и на память.Например, все, что умножается на ноль, равно нулю, поэтому он может пропустить эту операцию.И он может сжимать тензор (нули не нужно хранить), чтобы в памяти в четке можно было хранить большую часть.

Тем не менее, есть несколько проблем для эксплуатации разреженности.Поиск ненулевых значений в большом тензоре - нелегкая задача.Существующие подходы часто ограничивают местоположение ненулевых значений, обеспечивая соблюдение схемы разреженности для упрощения поиска, но это ограничивает разнообразие редких тензоров, которые можно эффективно обрабатывать.

Другая проблема заключается в том, что число ненулевых значений может варьироваться в разных областях тензора.Это затрудняет определение того, сколько места требуется для хранения разных областей в памяти.Чтобы убедиться, что регион подходит, часто распределяется больше места, чем необходимо, что приводит к недостаточно использования буфера хранения.Это увеличивает трафик памяти вне чипа, что требует дополнительных вычислений.

Исследователи MIT и Nvidia создали два решения для решения этих проблем.С одной стороны, они разработали технику, которая позволяет аппаратному обеспечению эффективно находить ненулевые значения для более широкого разнообразия моделей редкости.

Для другого решения они создали метод, который может обрабатывать случай, когда данные не вписываются в память, которая увеличивает использование буфера хранения и уменьшает трафик не-чипной памяти.

Оба метода повышают производительность и снижают потребности в энергии аппаратных ускорителей, специально разработанных для ускорения обработки редких тензоров.Документы были размещены на сервере Arxiv Preprint.

“Обычно, когда вы используете более специализированные или специфичные для домена аппаратные ускорители, вы теряете гибкость, которую вы получили бы от более общего процессора, например, процессор. Что выделяется с этими двумя работами, так это то, что мы показываем, что вы все еще можетеПоддерживайте гибкость и адаптивность, будучи специализированным и эффективным »,-говорит Вивьен Сме, доцент кафедры электротехники и компьютерных наук (EECS), члена исследовательской лаборатории электроники (RLE) и автора соучастника документов.на обоих достижениях.

Ее соавторы включают ведущих авторов Янан Нелли Ву.23 и Зи Ю Сюэ, аспирант электротехники и компьютерные науки;и автор со-старшего Джоэл Эмер, профессор MIT в области компьютерной науки и электротехники, и член Лаборатории компьютерной науки и искусственного интеллекта (CSAIL), а также других в NVIDIA.Обе работы будут представлены на Международном симпозиуме IEEE/ACM по микроархитектуре.

Респособность может возникнуть в тензоре по разным причинам.Например, исследователи иногда «обрезают» ненужные части моделей машинного обучения, заменяя некоторые значения в тензоре на нули, создавая разреженность.Степень разреженности (процент нулей) и местоположения нулей могут варьироваться для различных моделей.

Чтобы облегчить поиск оставшихся ненулевых значений в модели с миллиардами отдельных значений, исследователи часто ограничивают местоположение ненулевых значений, чтобы они попадали в определенную модель.Тем не менее, каждый аппаратный ускоритель обычно предназначен для поддержки одного конкретного схема разреженности, ограничивая его гибкость.

Напротив, аппаратный ускоритель, разработанные исследователи MIT, называемые Hight, могут обрабатывать широкий спектр режима редкости и при этом хорошо работать при запуске моделей, которые не имеют нулевых значений.

Они используют технику, которую они называют «иерархической структурированной разреженностью», чтобы эффективно представляют широкий спектр моделей разреженности, которые состоят из нескольких простых моделей разреженности.Этот подход делит значения в тензоре на более мелкие блоки, где каждый блок имеет свой собственный простой, редакторский шаблон (возможно, два нуля и два нелелевых в блоке с четырьмя значениями).

Затем они объединяют блоки в иерархию, где каждая коллекция блоков также имеет свой собственный простой, редакционный рисунок (возможно, один нулевой блок и три ненулевых блока на уровне с четырьмя блоками).Они продолжают объединять блоки до более крупных уровней, но на каждом шаге остаются шаблоны.

Эта простота позволяет подчеркнуть более эффективные поиски и пропустить нули, поэтому она может в полной мере воспользоваться возможностью вырезать избыточные вычисления.В среднем их конструкция ускорителя была примерно в шесть раз более энергоэффективно, чем другие подходы.

«В конце концов, акселератор выделения может эффективно ускорить плотные модели, потому что он не вводит много накладных расходов, и в то же время он способен использовать рабочие нагрузки с различными количествами нулевых значений на основе иерархической структурированной разреженности», Wuобъясняет.

В будущем она и ее сотрудники хотят применить иерархическую структурированную разреженность к большему количеству типов моделей машинного обучения и различных типов тензоров в моделях.

Исследователи также могут использовать разреженность, чтобы более эффективно перемещать и обрабатывать данные на компьютерном чипе.

Поскольку тензоры часто больше, чем то, что можно хранить в буфере памяти на чипе, чип хватает только и обрабатывает кусок тензора за раз.Куски называются плитки.

Чтобы максимизировать использование этого буфера и ограничить количество случаев, когда чип должен получить доступ к памяти вне чипа, которая часто доминирует в энергопотреблении и ограничивает скорость обработки, исследователи стремятся использовать самую большую плитку, которая будет вписаться в буфер.

Но в скудном тензоре многие значения данных равны нулю, поэтому еще большая плитка может вписаться в буфер, чем можно было бы ожидать в зависимости от его емкости.Ноль значений не нужно хранить.

Но количество нулевых значений может варьироваться в разных областях тензора, поэтому они также могут различаться для каждой плитки.Это затрудняет определение размера плитки, который поместится в буфере.В результате существующие подходы часто консервативно предполагают, что нет нулей и в конечном итоге выбирать меньшую плитку, что приводит к потраченным пустым пространствам в буфере.

Чтобы решить эту неопределенность, исследователи предлагают использовать «перебронирование», чтобы позволить им увеличить размер плитки, а также способ терпеть его, если плитка не соответствует буферу.

Точно так же, как авиакомпания перерабатывает билеты на рейс, если все пассажиры появятся, авиакомпания должна компенсировать тех, кто выбит с самолета.Но обычно все пассажиры не появляются.

В скудном тензоре можно выбрать размер плитки, так что обычно плитки будут иметь достаточно нулей, которые больше всего вписываются в буфер.Но иногда плитка будет иметь больше ненулевых значений, чем подойдет.В этом случае эти данные выталкиваются из буфера.

Исследователи позволяют аппаратному обеспечению только повторно выбирать данные об удалении, не захватывая и не обрабатывая всю плитку снова.Они изменяют «хвостовой конец» буфера, чтобы справиться с этим, отсюда и название этой техники, портных.

Затем они также создали подход для поиска размера для плиток, которые используют преимущества перебронирования.Этот метод, называемый Swiftiles, быстро оценивает идеальный размер плитки, так что определенный процент плиток, установленных пользователем, был перебронирован.(Имена «портные» и «Swiftiles» отдают дань уважения Тейлору Свифту, чей недавний тур ERAS был чреват перебронированными кодами предпродажей для билетов).

Swiftiles уменьшает количество раз, когда оборудование необходимо проверить тензор, чтобы определить идеальный размер плитки, сохраняя вычисления.Комбинация портных и Swiftiles более чем удваивает скорость, требуя только половины потребностей в энергии существующих аппаратных ускорителей, которые не могут справиться с перебронированием.

“Swiftiles позволяет нам оценить, насколько большими должны быть эти плитки, не требуя многочисленных итераций для уточнения оценки. Это работает только потому, что поддерживается перебронирование. Даже если вы выключены на приличное количество, вы все равно можете извлечь немало ускорения, потому чтоо том, как распределены нелезоры »,-говорит Сюэ.

В будущем исследователи хотят применить идею перебронирования других аспектов в компьютерной архитектуре, а также работать над улучшением процесса оценки оптимального уровня перебронирования.

Больше информации: Zi Yu Xue et al.Doi: 10.48550/arxiv.2310.00192

Яннан Нелли Ву и др., Основные выделители: Эффективное и гибкое ускорение DNN с иерархической структурированной редкой, Arxiv (2023).Doi: 10.48550/arxiv.2305.12718

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Meta представляет Chameleon, мультимодальную модель раннего слияния

5/23/2024 · 7 мин. чтения

Meta представляет Chameleon, мультимодальную модель раннего слияния

Исследователи используют «умные» резиновые конструкции для выполнения вычислительных задач

5/23/2024 · 7 мин. чтения

Исследователи используют «умные» резиновые конструкции для выполнения вычислительных задач