3 мин. чтения
5/22/2024 10:26:48 AM

Два типа LLM способны равняться или превзойти людей в тестировании теории разума

Article Preview Image Производительность человека (фиолетовый), GPT-4 (темно-синий), GPT-3.5 (светло-голубой) и Llama2-70B (зеленый) на батареи тестов теории разума.A, оригинальные тестовые элементы для каждого теста, показывающие распределение результатов тестов для отдельных сессий и участников.B, межквартильные диапазоны средних баллов по оригинальным опубликованным предметам (темные цвета) и новые предметы (бледные цвета) по каждому тесту.Кредит: природа человеческое поведение (2024).Doi: 10.1038/s41562-024-01882-z

Международная команда психологов и нейробиологов обнаружила посредством экспериментов, что два типа LLM могут равняться или превзойти людей по теории тестов на разум.В своем исследовании, о котором сообщалось в журнале «Поведение человека», группа проводила теорию тестов на разум добровольцам и сравнила средние результаты с результатами двух типов LLM.

За последние несколько лет крупные языковые модели (LLMS), такие как CHATGPT, улучшились до такой степени, что теперь они были доступны для общего пользования для общественности.Они также неуклонно выросли в своих способностях.Одна новая способность заключается в том, чтобы вывести настроение - прикрытые значения или психическое состояние человеческого пользователя.

В этом новом исследовании исследовательская группа задавалась вопросом, продвинулись ли способности LLMS до такой степени, что они могут выполнять теорию задач ума наравне с людьми.

Теория разума была разработана психологами для измерения ментального и/или эмоционального состояния человека во время социальных взаимодействий.Предыдущие исследования показали, что люди используют различные сигналы, чтобы сигнализировать о своем психическом состоянии другим, с целью передачи информации без конкретной.

Предыдущие исследования также показали, что люди преуспевают в том, чтобы понять такие сигналы, но другие животные этого не делают.Так много в полевых условиях считают невозможным для компьютера пройти такие тесты.Исследовательская группа проверила несколько LLM, чтобы увидеть, насколько хорошо они будут сравниваться с толпой людей, проходящих те же тесты.

Исследователи проанализировали данные 1907 добровольцев, которые сдали стандартную теорию тестов на разум и сравнили результаты с результатами нескольких LLM, таких как Llama 2-70B и GPT-4.Обе группы ответили на пять типов вопросов, каждый из которых предназначен для измерения таких вещей, как искусственный PAS, ирония или истина заявления.Каждому также было предложено ответить на вопросы «ложных убеждений», которые часто назначаются детям.

Исследователи обнаружили, что LLMS довольно часто равняются производительности людей, а иногда и стали лучше.Более конкретно, они обнаружили, что GPT-4 был лучшим из группы в пяти основных типах задач, в то время как оценки LLAMA-2 были намного хуже, чем другие виды LLM или людей, в некоторых случаях, но были намного лучше в некоторых других типахвопросов.

По мнению исследователей, эксперимент показывает, что LLM в настоящее время способны выполнять сравнительно с людьми в теории тестов на разум, хотя они не предполагают, что такие модели такие же умные или умные, чем люди, или более интуитивно понятны в целом.

Больше информации: Джеймс В. А. Страчан и др., Тестирование теории разума в крупных языковых моделях и людях, природа человеческое поведение (2024).Doi: 10.1038/s41562-024-01882-z

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Обучение моделей ИИ, для ответа на вопрос: «Что если?» Вопросы могут улучшить медицинское лечение

6/15/2024 · 3 мин. чтения

Обучение моделей ИИ, для ответа на вопрос: «Что если?» Вопросы могут улучшить медицинское лечение

Новая база данных имеет 250 инструментов искусственного интеллекта, которые могут улучшить исследования в области социальных наук

6/8/2024 · 3 мин. чтения

Новая база данных имеет 250 инструментов искусственного интеллекта, которые могут улучшить исследования в области социальных наук