3 мин. чтения
5/23/2024 7:30:01 AM

Метод смягчения галлюцинаций в моделях крупных языков

Article Preview Image Показатели воздержания по сравнению с средними тестовыми потерями в наборе данных временных последовательностей с α = 0,05 (вверху) и α = 0,05 (внизу) для функций баллов (M.C.), ожидаемого количества совпадений (E.M.C) и Log-повышения (L.P.)и для различных методов калибровки (. Обозначает базовую линию без калибровки).Ширина и высота коробки представляют 90% доверительные интервалы с приближением Гаусса по сравнению с показателями воздержания и средними ошибками испытаний соответственно.Пунктирная горизонтальная линия представляет собой границу целевого риска α.Кредит: Arxiv (2024).Doi: 10.48550/arxiv.2405.01563

Крупные языковые модели (LLMS), архитектуры искусственных нейронных сетей, которые могут обрабатывать, генерировать и манипулировать текстами на различных человеческих языках, в последнее время становятся все более широко распространенными.Эти модели в настоящее время используются в широком диапазоне настроек, чтобы быстро найти ответы на запросы, создавать контент для конкретных целей и интерпретировать сложные тексты.

Хотя недавно внедренные LLM могут генерировать очень убедительные тексты, которые в некоторых случаях трудно различить по сочинениям, создаваемым людьми, было обнаружено, что они склонны к так называемым галлюцинациям.В этом контексте галлюцинации относятся к LLM, генерирующим полностью несвязанные, неточные или неуместные ответы.

Исследователи в DeepMind недавно разработали новую процедуру, которая могла бы помочь определить случаи, в которых LLM должен воздерживаться от ответа на запрос, например, отвечая «я не знаю», поскольку они могут галлюцинировать бессмысленные или неправильные ответы.Предложенный командой подход, описанный в статье, предварительно опубликованном на ARXIV, влечет за собой использование LLM для оценки их собственных потенциальных ответов.

«Опираясь на более ранние подходы, которые используют самосогласованность в качестве более надежной меры доверия к модели, мы предлагаем использовать сам LLM для самооценки сходства между каждым из его выборки для данного запроса»,-Ясин Аббаси Ядкори, Илджа КузборскийИх коллеги написали в своей статье.«Затем мы дополнительно используем методы конформного прогнозирования для разработки процедуры воздержания, которая получает выгоду от строгих теоретических гарантий на частоту галлюцинации (частота ошибок)».

Ядкори, Кузборский и их коллеги оценили их предлагаемый метод для смягчения галлюцинаций LLM в серии экспериментов, используя временные последовательности и витриаку, два общедоступных набора данных, содержащих запросы и связанные с ними ответы.Они специально применили предлагаемый метод к Gemini Pro, LLM, разработанному в Google и выпущенном в 2023 году.

«Экспериментально, наш полученный конформный метод воздержания надежно ограничивает частоту галлюцинации на различных наборах данных с генеративным вопросом с открытым доменом, а также поддерживает значительно менее консервативную скорость воздержания на наборе набора данных с длинными ответами (временные последовательности) по сравнению с базельОценки Log-обеспечения для количественной оценки неопределенности, одновременно достигая сопоставимой производительности в наборе данных с короткими ответами (Viriviaqa) »,-написали исследователи.

«Чтобы автоматически оценить эксперименты, необходимо определить, эквивалентны ли два ответа, учитывая вопрос. Следующим стандартной практике мы используем пороговую функцию сходства, чтобы определить, соответствуют ли два ответа, но также предоставляем метод для калибровки порога на основе конформного прогноза, с теоретическими гарантиями о точности прогнозирования совпадения, что может предложить независимый интерес ».

Результаты экспериментов этой исследовательской группы показывают, что их процедура конформной калибровки и оценки сходства смягчает галлюцинации LLM, позволяя модели воздерживаться от ответа на вопрос, может ли их ответ быть несущественным или ненадежным.Было обнаружено, что недавно предложенный подход превосходит простые процедуры базового уровня.

Это недавнее исследование, проведенное Deep Mind, может вскоре проинформировать о разработке аналогичных процедур для повышения надежности LLMS и предотвращения их галлюцинации.В совокупности эти усилия будут способствовать развитию этих моделей, способствуя их широкому использованию среди профессионалов во всем мире.

Больше информации: Ясин Аббаси Ядкори и др., Смягчающие галлюцинации LLM посредством конформного воздержания, Arxiv (2024).Doi: 10.48550/arxiv.2405.01563

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Автоматизация курирования наборов данных для предварительного обучения AI

6/4/2024 · 3 мин. чтения

Автоматизация курирования наборов данных для предварительного обучения AI

Ученые считают, что ChatGPT неточен при ответе на вопросы программирования

5/28/2024 · 3 мин. чтения

Ученые считают, что ChatGPT неточен при ответе на вопросы программирования