2 мин. чтения
3/30/2024 10:32:00 AM

DeepMind разрабатывает Safe, приложение на основе искусственного интеллекта, которое может проверить LLMS на фактах

Article Preview Image Кредит: CC0 Общественный домен

Команда специалистов по искусственному интеллекту в Google DeepMind разработала систему на основе искусственного интеллекта под названием Safe, которую можно использовать для проверки результатов LLM, таких как CHATGPT.Группа опубликовала статью, описывающую новую систему ИИ и то, насколько хорошо она выполнялась на сервере Arxiv Preprint.

Большие языковые модели, такие как CHATGPT, были в новостях за последние пару лет - они могут писать документы, дать ответы на вопросы и даже решить математические проблемы.Но они страдают от одной серьезной проблемы: точности.Каждый результат, полученный LLM, должен быть проверен вручную, чтобы убедиться, что результаты являются правильными, атрибут, который значительно снижает их значение.

В этих новых усилиях исследователи в DeepMind создали приложение AI, которое может проверить результаты ответов, приведенных LLMS, и автоматически указывать на неточности.

Одним из основных способов, которыми люди пользователей LLMS проверки фактов является исследование ответов искусственного интеллекта с использованием поисковой системы, такой как Google, чтобы найти соответствующие источники для проверки.Команда в DeepMind приняла тот же подход.Они создали LLM, который разрушает претензии или факты в ответе, предоставленном исходным LLM, а затем использовал поиск Google для поиска сайтов, которые можно использовать для проверки, а затем сравнили два ответа для определения точности.Они называют свой новый системный поисковый оценщик фактов (Safe).

Чтобы проверить свою систему, исследовательская группа использовала ее для проверки приблизительно 16 000 фактов, содержащихся в ответах, данных несколькими LLMS.Они сравнили свои результаты с человеческими (краудсорными) проверщиками фактов и обнаружили, что Safe совпадает с выводами людей в 72% случаев.При тестировании разногласий между Safe и человеческими контролерами исследователи сочли безопасным, чтобы быть правильным в 76% случаев.

Команда DeepMind сделала код для Safe, доступным для использования всеми, кто решит воспользоваться своими возможностями, разместившись на сайте с открытым исходным кодом GitHub.

Больше информации: Джерри Вэй и др., Длинная фактическая фактория в крупных языковых моделях, Arxiv (2024).Doi: 10.48550/arxiv.2403.18802

Код: github.com/google-deepmind/long-form-factuality

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Meta представляет Chameleon, мультимодальную модель раннего слияния

5/23/2024 · 2 мин. чтения

Meta представляет Chameleon, мультимодальную модель раннего слияния

Исследователи используют «умные» резиновые конструкции для выполнения вычислительных задач

5/23/2024 · 2 мин. чтения

Исследователи используют «умные» резиновые конструкции для выполнения вычислительных задач