3 мин. чтения
7/17/2024 11:51:03 AM

Крупные языковые модели совершают ошибки рассуждений, подобно человеку

Article Preview Image Манипулирование содержанием в фиксированных логических структурах.В каждом из трех наборов данных автора они создают различные версии логических задач.Различные версии проблемы предлагают одни и те же логические структуры и задачи, но создаются экстремениями с различными сущностями или отношениями между этими сущностями.Отношения в задаче могут либо соответствовать или нарушать реальные семантические отношения, либо могут быть глупость без семантического содержания.В целом, люди и модели более точно рассуждают о согласованных или реалистичных ситуациях или правилах, чем в убеждениях, чем, чем, а также, а также произвольных или произвольных.Кредит: Лампинен и соавт.

Большие языковые модели (LLMS) могут выполнять абстрактные задачи рассуждения, но они подвержены многим из тех же самых ошибок, совершаемых людьми.Эндрю Лампинен, Ишита Дасгупта и коллеги проверили современные LLMS и людей на трех видах рассуждений: вывод естественного языка, оценка логической валидности силлогизмов и задачи отбора WASON.

Результаты опубликованы в PNAS Nexus.

Авторы обнаружили, что LLMs подвержены сходным эффектам содержания, как и люди.Как люди, так и LLM с большей вероятностью ошибочно помешают неверный аргумент как действительный, когда семантическое содержание является чувственным и правдоподобным.

LLM также так же плохи, как и люди в задаче выбора WASON, в котором участнику представлено четыре карты с буквами или цифрами, написанными на них (например, «D», «F», «3» и «7»)и спросил, какие карты им нужно будет перевернуться, чтобы проверить точность правила, например, «если у карты есть« D »с одной стороны, то у нее есть« 3 »с другой стороны».

Люди часто предпочитают переворачивать карты, которые не предлагают никакой информации о достоверности правила, но это проверяет контрапозитивное правило.В этом примере люди склонны выбирать карту, помеченную «3», даже если правило не подразумевает, что карта с «3» будет иметь «D» на обороте.LLMs делают это и другие ошибки, но показывают аналогичный общий уровень ошибок для людей.

Человеческая и LLM -производительность в задаче отбора WASON улучшается, если правила о произвольных буквах и цифрах заменяются социально релевантными отношениями, такими как возраст людей и выпит ли человек алкоголь или газировку.По словам авторов, LLM, обученные данным человеку, по -видимому, демонстрируют некоторые недостатки человека с точки зрения рассуждений - и, как и люди, могут потребовать формального обучения для улучшения их логических рассуждений.

More information: Language models, like humans, show content effects on reasoning tasks, PNAS Nexus (2024). DOI: 10.1093/pnasnexus/pgae233. academic.oup.com/pnasnexus/art … /3/7/pgae233/7712372

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Алгоритм модели глубокого обучения для анализа настроений

8/8/2024 · 3 мин. чтения

Алгоритм модели глубокого обучения для анализа настроений

Алгоритмы ИИ, вдохновленные природой, предлагают новые решения сложных проблем

8/2/2024 · 3 мин. чтения

Алгоритмы ИИ, вдохновленные природой, предлагают новые решения сложных проблем

*Facebook, Instagram, Meta - запрещенные в РФ организации.