Фреймворк для обнаружения галлюцинаций в тексте, сгенерированном LLMS
Обзор Ноухалу.Процесс обнаружения галлюцинации начинается с «проверки галлюцинации без лечения», фазы, сосредоточенной на ранней идентификации галлюцинаций, не связанных с летанием путем тщательного изучения специфичности ответов.Для потенциальных галлюцинаций изготовления Ноухалу предоставляет всеобъемлющую «фактическую проверку», которая состоит из пяти шагов: (а) «Пошаговые рассуждения и запрос» разбивают исходный запрос в пошаговые рассуждения и подразделения для подробной проверки.;(б) «поиск знаний» извлекает неструктурированные знания через тряпку и структурированные знания в форме триплетов для каждого подзарика;(c) «Оптимизация знаний» использует LLM для суммирования и уточнения полученных знаний в разные формы;(d) «суждение, основанное на многоформированных знаниях», использует LLMS для критической оценки ответа на подразделы, основываясь на каждой форме знаний;(e) «Агрегация» обеспечивает еще одно утонченное суждение, агрегируя прогнозы, основанные на различных формах знаний: Zhang et al., Arxiv (2024).Doi: 10.48550/arxiv.2404.02935
Несмотря на их обещание отвечать на человеческие вопросы в режиме реального времени и создание текстов для определенных целей, LLMS иногда может генерировать бессмысленные, неточные или не относящиеся к делу тексты, которые отклоняются от подсказок, которые им кормили человеческими пользователями.Это явление, которое часто связано с ограничениями данных, используемых для обучения моделей или ошибок в их основных рассуждениях, называется LLM «галлюцинации».
Исследователи из Университета Иллинойса Урбана-Шампейн недавно представили Knowhalu, структуру для обнаружения галлюцинаций в тексте, генерируемом LLMS.Эта структура, представленная в статье, опубликованной на сервере ARXIV, может помочь повысить надежность этих моделей и упростить их использование для выполнения различных задач генерации текста.
«Поскольку достижения в LLM продолжаются, галлюцинации становятся критическим препятствием, препятствующим их более широкому реальному применению»,-сказал Bo Li, советник проекта Bo Li.«Хотя в многочисленных исследованиях рассматривались галлюцинации LLM, существующие методы часто не могут эффективно использовать реальные знания и не использовать их неэффективно.
«Мотивировано этим пробелом, мы разработали новую многоформную основу для обнаружения галлюцинации для LLM. Кроме того, мы определили пробел в текущих исследованиях, касающихся необработанных галлюцинаций: ответы, которые являются фактически правильными, но неактуальными или не конкретными для запроса. ”
Когда они рассмотрели прошлую литературу, Ли и ее соавторы обнаружили, что многие прошлые подходы, направленные на обнаружение галлюцинаций LLM, сфокусированных на генерации бессмысленных текстов, а не фактически точных текстах, которые не соответствуют подсказкам пользователей.Таким образом, новая структура, которую они разработали, также оснащен выделенным компонентом, предназначенным для обнаружения этих типов точных, но неуместных галлюцинаций.
«Knowhalu - это новая структура, предназначенная для обнаружения галлюцинаций в ответах, генерируемых LLMS», - пояснил Ли.«Он работает с использованием двухфазного процесса, который включает в себя несколько компонентов, чтобы обеспечить точность и актуальность выходов LLM. Первый этап фокусируется на обнаружении галлюцинаций, не связанныхЗапрос под рукой, и такое обнаружение в основном отсутствует в современной литературе ».
На втором этапе своей работы в Knowhalu используется многоформатный процесс проверки фактов, основанный на знаниях, который простирается на пять этапов.Этими шагами являются: пошаговые рассуждения и запрос, поиск знаний, оптимизация знаний, суждение, основанное на многоформных знаниях и агрегации суждения.
«Этот комплексный процесс помогает в выявлении незаземленной или нерелевантной информации, предоставленной LLMS, что делает Knowhalu особенно эффективным в разных приложениях, таких как задачи QA и суммирования», - сказал Ли.
Ноухалу имеет несколько уникальных характеристик и преимуществ по сравнению с другими подходами обнаружения галлюцинации LLM.В частности, он также может обнаруживать не вмешанные галлюцинации, может оценивать различные типы запросов и использовать недавно разработанный многообразованный процесс проверки фактов с поддержкой знаний.
Ли и ее ученики проверили свою структуру в серии тестов и обнаружили, что превзошли различные другие базовые методы и инструменты обнаружения галлюцинации LLM.Используя Knowhalu, исследователи также собрали интересную информацию о галлюцинации в моделях LLM.
Во -первых, они обнаружили, что разные подсказки и разные модели достигают лучших результатов по некоторым типам знаний.Например, модель Starling-7B превосходит при предоставлении неструктурированных знаний, тогда как GPT-3.5 более эффективен со структурированными знаниями.
«Наша многоформная тряпка, основанная на знаниях, значительно превосходит стандартную тряпку, которая предлагается впервые»,-сказал Ли.«Более того, мы обнаружили, что модели, выпущенные позже, имеют более высокую способность использования структурированных данных, подчеркивая важность нашего многоформного алгоритма знаний.
«Ноухалу значительно превосходит различные базовые показатели SOTA и даже выполняет гораздо лучше, чем напрямую побуждая GPT-4 для выполнения обнаружения галлюцинации, что демонстрирует ее эффективность и возможность обнаружения и смягчения галлюцинации».
Результаты, собранные Ли и ее сотрудниками, также демонстрируют, что формулировка пользовательских запросов, направленных на поиск информации, значительно влияет на качество ответов, полученных LLMS.
В частности, если пользователи ищут спекулятивные или расплывчатые ответы, было бы целесообразно сформулировать общие вопросы, но если они ищут более конкретные ответы, они должны предложить более подробные подсказки, подчеркивая тип информации, которую они ищут для использования так называемых «идентификаторов». “Эти идентификаторы, как правило, также присутствуют в базе данных, на которую полагаются модели, поэтому им будет легче получить точную информацию.
В будущем Ноухалу сможет проинформировать о разработке более эффективных LLM, которые не галлюцинируют так часто и генерируют более надежные ответы.Кроме того, новая структура может вдохновить другие исследовательские группы на разработку подходов, которые занимаются более широким спектром галлюцинаций LLM.
«Теперь мы планируем дополнительно автоматически анализировать различные документы и извлекать знания, чтобы помочь смягчить галлюцинации для LLMS и изучить различные формы знаний и отображать полученные знания с другими формами, такими как логические формы более высокого порядка, чтобы помочь заземлить генерацию модели»,-добавил ЛиПолем
«Более того, мы постараемся предоставить теоретические гарантии галлюцинации LLM, основанные на данных базах знаний и адаптировать нашу структуру к различным областям применения, таким как автономные агенты по вождению и агенты здравоохранения».
Больше информации: Jiawei Zhang et al.Doi: 10.48550/arxiv.2404.02935
Нашли ошибку в тексте? Напишите нам.