От рекурретных сетей до GPT-4: измерение алгоритмического прогресса в языковых моделях
Журнал недоумения моделей, используемых в нашей работе, более 231 языковых моделей, проанализированных в нашей работе, охватывающих более 8 порядков вычисления, причем каждая форма представляет модель.Размер формы пропорционален вычислению, используемому во время обучения.Сопоставимые оценки недоумения курируются из существующей литературы и из наших собственных оценок.Кредит: Arxiv (2024).https://arxiv.org/abs/2403.05812 🔗
В новой статье, размещенной на сервере Arxiv Preprint, исследователи из Epoch, MIT Futuretech и Северо -Восточный университет намеревались пролить свет на этот вопрос.Их исследования разбивают драйверы прогресса в языковых моделях на два фактора: масштабирование количества вычислительных вычислений, используемых для обучения языковых моделей, и алгоритмических инноваций.При этом они проводят наиболее обширный анализ алгоритмического прогресса в языковых моделях на сегодняшний день.
Их выводы показывают, что из -за алгоритмических улучшений вычисление, необходимое для обучения языковой модели до определенного уровня производительности, примерно каждые восемь месяцев вдвое.«Этот результат имеет решающее значение для понимания как исторического, так и будущего прогресса в языковых моделях», - говорит Ансон Хо, один из двух ведущих авторов статьи.«В то время как масштабирование вычислительного выбора было решающим, это только часть головоломки. Чтобы получить полную картину, вам необходимо рассмотреть алгоритмический прогресс».
Методология статьи вдохновлена «законами о нейронном масштабировании»: математические отношения, которые предсказывают эффективность языковой модели, учитывая определенные количества вычислений, данных обучения или параметров языковой модели.Скомпилируя набор данных из более чем 200 языковых моделей с 2012 года, авторы соответствуют модифицированному закону о нейронном масштабировании, который со временем учитывает алгоритмические улучшения.
Основываясь на этой подходящей модели, авторы проводят анализ атрибуции производительности, обнаружив, что масштабирование вычислительного выбора было более важным, чем алгоритмические инновации для повышения производительности в языковом моделировании.Фактически, они считают, что относительная важность алгоритмических улучшений со временем снизилась.
«Это не обязательно подразумевает, что алгоритмические инновации замедляются»,-говорит Тамай Бесроглу, который также руководил бумагой.«Наше предпочтительное объяснение состоит в том, что алгоритмический прогресс остался примерно с постоянной скоростью, но вычислитель существенно увеличился, что заставило первого казаться относительно менее важным».
Расчеты авторов подтверждают это кадрирование, где они находят ускорение в вычислительном росте, но нет доказательств ускорения или замедления алгоритмических улучшений.
Не слегка изменяя модель, они также определили количественно значение ключевого инновации в истории машинного обучения: трансформатор, который стал архитектурой доминирующей языковой модели с момента ее введения в 2017 году. Авторы обнаруживают, что повышение эффективности, предлагаемое трансформаторомсоответствует почти двум годам алгоритмического прогресса в этой области, подчеркивая значение его изобретения.
Несмотря на то, что в исследовании есть несколько ограничений.«Одна повторяющаяся проблема, которую у нас была, была отсутствие качественных данных, которые могут затруднить модель», - говорит Хо.«Наш подход также не измеряет алгоритмический прогресс в нижестоящих задачах, таких как кодирование и математические проблемы, которые можно настроить языковые модели».
Несмотря на эти недостатки, их работа является главным шагом вперед в понимании драйверов прогресса в ИИ.Их результаты помогают пролить свет на то, как могут развиваться будущие события в ИИ, с важными последствиями для политики ИИ.
«Эта работа, возглавляемая Энсоном и Тамай, имеет важные последствия для демократизации ИИ»,-сказал Нил Томпсон, соавтор и директор MIT FutureTech.«Эти повышения эффективности означают, что каждый год уровни производительности искусственного интеллекта, которые были недоступны, становятся доступными для большего количества пользователей».
«В последние годы LLM улучшаются в головокружительных темпах. В этом документе представлен наиболее тщательный анализ на сегодняшний день относительного вклада оборудования и алгоритмических инноваций в прогресс в результате работы LLM», - говорит сотрудник Открытой филантропии Лукас Финнведен, который не былвовлечен в газету.
«Это вопрос, который я забочусь о многом, поскольку он напрямую информирует, какой темпы дальнейшего прогресса мы должны ожидать в будущем, что поможет обществу подготовиться к этим достижениям. Авторы соответствуют ряду статистических моделей к большому набору данныхисторических оценок LLM и использования обширной перекрестной проверки, чтобы выбрать модель с сильной прогностической производительностью. Они также дают хорошее представление о том, как результаты будут варьироваться при разных разумных предположениях, выполняя много проверок надежности.
«В целом, результаты показывают, что увеличение вычислений было и будет продолжать нести ответственность за большую часть прогресса LLM, пока вычислительные бюджеты продолжают расти на ≥4x в год. Однако алгоритмический прогресс является значительным и может составить большую часть прогрессаЕсли темпы растущих инвестиций замедляются ».
Больше информации: Ансон Хо и др., Алгоритмический прогресс в языковых моделях, Arxiv (2024).arxiv.org/abs/2403.05812
Нашли ошибку в тексте? Напишите нам.