Почему редактирование знаний о пост-тренировке LLMS может создать волновые эффекты
Иллюстрация волновых эффектов в редактировании знаний LLM.Наша работа эмпирически демонстрирует положительную корреляцию между сходством градиента, объясняет большую часть волнового эффекта.Кроме того, грязное сходство между знаниями создает несколько нелогичных ошибок волнного эффекта.Кредит: Qin et al.
Кроме того, доступные знания во всем мире находятся в постоянной эволюции.Таким образом, эти модели могут иногда сообщать о устаревшей информации, которую они питались во время обучения, в отличие от другой соответствующей и современной информации, выпущенной после их обучения.Чтобы преодолеть это ограничение LLMS и повысить надежность своих ответов, некоторые компьютерные ученые изучают возможность редактирования своей базы знаний после того, как они завершили обучение.
Эти вмешательства по редактированию знаний (KE) должны затем влиять на весь контент, созданный LLM, создавая волновой эффект.Это означает, что все будущие ответы модели по данной теме должны отражать новую информацию, которую он приобрела по этой теме после того, как ее знания были изменены.
К сожалению, исследования показывают, что эти волновые эффекты не всегда происходят.По сути, это означает, что, хотя модель может правильно ответить на прямые вопросы об измененной информации, она может не охватывать новые знания, которые она приобрела во всех ответах, которые она генерирует, включая те, которые косвенно затрагивают новую информацию.
Исследователи из Университета Иллинойса Урбана-Шампейн недавно решили лучше понять процессы, лежащие в основе успешной реализации волновых эффектов после редактирования знаний LLM.Их статья, опубликованная на сервере Arxiv Preprint, может проинформировать о будущих усилиях, направленных на обновление знаний об этих широко используемых моделях, что способствует улучшению этих моделей после тренировки.
«Обширные предыдущие исследования были сосредоточены на редактировании знаний после обучения (KE) для языковых моделей (LMS), чтобы обеспечить точное и актуальное знание»,-написал джиаасин Цинь, Зисуан Чжан и их коллеги в своей статье.«Одно желаемое свойство и открытый вопрос в KE - это позволить редактированию LMS правильно обрабатывать волновые эффекты, где LM ожидает точно ответить на свои логически связанные знания. В этой статье мы отвечаем на вопрос о том, почему большинство методов KE по -прежнему создают беспорядочные волновые эффекты.”
Ключевая гипотеза этого недавнего исследования заключается в том, что хранение знаний между параметрами LLM влияет на степень, в которой вмешательства KE будут иметь желаемые волновые эффекты.В своей статье исследователи определяют фактор, который может указывать на то, насколько вероятно, что это обновленное факт, чтобы волноваться в ответах, генерируемых LLM после изменения его знаний.
Этот фактор, который исследователи называют Gradsim, по сути, является сходством косинуса между градиентами связанных знаний фактов.Пропустив серию тестов, команда продемонстрировала, что этот показатель сильно коррелирует с волновыми эффектами после вмешательств KE.
«Мы проводим обширный анализ и выявляем существенный показатель, Gradsim, который эффективно показывает, когда и почему обновленные знания в LMS», - написали исследователи.”Gradsim рассчитывается по сходству косинуса между градиентами исходного факта и связанными с ним знаниями. Мы наблюдаем сильную положительную корреляцию между эффективностью волнового эффекта и Gradsim по разным LMS, методам KE и оценке.Случаи (отрицание, чрезмерное, многоязычное) волновых эффектов показывают, что эти неудачи часто связаны с очень низким градсимом ».
Это недавнее исследование Цинь, Чжана и их коллег определяет критический фактор, который может помочь предсказать, в какой степени редактирование знаний LLM будет охватывать его будущие ответы.Выводы команды могут вскоре проинформировать о новых усилиях, направленных на эффективное обновление знаний LLM после завершения обучения.
More information: Jiaxin Qin et al, Why Does New Knowledge Create Messy Ripple Effects in LLMs?, arXiv (2024). DOI: 10.48550/arxiv.2407.12828
Нашли ошибку в тексте? Напишите нам.