Крупные языковые модели совершают ошибки рассуждений, подобно человеку
Манипулирование содержанием в фиксированных логических структурах.В каждом из трех наборов данных автора они создают различные версии логических задач.Различные версии проблемы предлагают одни и те же логические структуры и задачи, но создаются экстремениями с различными сущностями или отношениями между этими сущностями.Отношения в задаче могут либо соответствовать или нарушать реальные семантические отношения, либо могут быть глупость без семантического содержания.В целом, люди и модели более точно рассуждают о согласованных или реалистичных ситуациях или правилах, чем в убеждениях, чем, чем, а также, а также произвольных или произвольных.Кредит: Лампинен и соавт.
Большие языковые модели (LLMS) могут выполнять абстрактные задачи рассуждения, но они подвержены многим из тех же самых ошибок, совершаемых людьми.Эндрю Лампинен, Ишита Дасгупта и коллеги проверили современные LLMS и людей на трех видах рассуждений: вывод естественного языка, оценка логической валидности силлогизмов и задачи отбора WASON.
Результаты опубликованы в PNAS Nexus.
Авторы обнаружили, что LLMs подвержены сходным эффектам содержания, как и люди.Как люди, так и LLM с большей вероятностью ошибочно помешают неверный аргумент как действительный, когда семантическое содержание является чувственным и правдоподобным.
LLM также так же плохи, как и люди в задаче выбора WASON, в котором участнику представлено четыре карты с буквами или цифрами, написанными на них (например, «D», «F», «3» и «7»)и спросил, какие карты им нужно будет перевернуться, чтобы проверить точность правила, например, «если у карты есть« D »с одной стороны, то у нее есть« 3 »с другой стороны».
Люди часто предпочитают переворачивать карты, которые не предлагают никакой информации о достоверности правила, но это проверяет контрапозитивное правило.В этом примере люди склонны выбирать карту, помеченную «3», даже если правило не подразумевает, что карта с «3» будет иметь «D» на обороте.LLMs делают это и другие ошибки, но показывают аналогичный общий уровень ошибок для людей.
Человеческая и LLM -производительность в задаче отбора WASON улучшается, если правила о произвольных буквах и цифрах заменяются социально релевантными отношениями, такими как возраст людей и выпит ли человек алкоголь или газировку.По словам авторов, LLM, обученные данным человеку, по -видимому, демонстрируют некоторые недостатки человека с точки зрения рассуждений - и, как и люди, могут потребовать формального обучения для улучшения их логических рассуждений.
More information: Language models, like humans, show content effects on reasoning tasks, PNAS Nexus (2024). DOI: 10.1093/pnasnexus/pgae233. academic.oup.com/pnasnexus/art … /3/7/pgae233/7712372
Нашли ошибку в тексте? Напишите нам.