DeepMind разрабатывает Safe, приложение на основе искусственного интеллекта, которое может проверить LLMS на фактах
Кредит: CC0 Общественный домен
Команда специалистов по искусственному интеллекту в Google DeepMind разработала систему на основе искусственного интеллекта под названием Safe, которую можно использовать для проверки результатов LLM, таких как CHATGPT.Группа опубликовала статью, описывающую новую систему ИИ и то, насколько хорошо она выполнялась на сервере Arxiv Preprint.
Большие языковые модели, такие как CHATGPT, были в новостях за последние пару лет - они могут писать документы, дать ответы на вопросы и даже решить математические проблемы.Но они страдают от одной серьезной проблемы: точности.Каждый результат, полученный LLM, должен быть проверен вручную, чтобы убедиться, что результаты являются правильными, атрибут, который значительно снижает их значение.
В этих новых усилиях исследователи в DeepMind создали приложение AI, которое может проверить результаты ответов, приведенных LLMS, и автоматически указывать на неточности.
Одним из основных способов, которыми люди пользователей LLMS проверки фактов является исследование ответов искусственного интеллекта с использованием поисковой системы, такой как Google, чтобы найти соответствующие источники для проверки.Команда в DeepMind приняла тот же подход.Они создали LLM, который разрушает претензии или факты в ответе, предоставленном исходным LLM, а затем использовал поиск Google для поиска сайтов, которые можно использовать для проверки, а затем сравнили два ответа для определения точности.Они называют свой новый системный поисковый оценщик фактов (Safe).
Чтобы проверить свою систему, исследовательская группа использовала ее для проверки приблизительно 16 000 фактов, содержащихся в ответах, данных несколькими LLMS.Они сравнили свои результаты с человеческими (краудсорными) проверщиками фактов и обнаружили, что Safe совпадает с выводами людей в 72% случаев.При тестировании разногласий между Safe и человеческими контролерами исследователи сочли безопасным, чтобы быть правильным в 76% случаев.
Команда DeepMind сделала код для Safe, доступным для использования всеми, кто решит воспользоваться своими возможностями, разместившись на сайте с открытым исходным кодом GitHub.
Больше информации: Джерри Вэй и др., Длинная фактическая фактория в крупных языковых моделях, Arxiv (2024).Doi: 10.48550/arxiv.2403.18802
Нашли ошибку в тексте? Напишите нам.