Драматические рассуждения в ИИ моделях крупных языков
Сильные колебания между вариациями задач AIW.Также для более высоких исполнителей, например, GPT-4O, GPT-4 и Claude Opus 3, правильные скорости отклика сильно различаются от близких к 1 до 0, несмотря на лишь небольшие изменения, внесенные в изменениях AIW (цвет на каждое вариацию 1–4).ПолемЭто ясно показывает отсутствие модельной надежности, намекая на основные дефициты рассуждений.Кредит: Arxiv (2024).Doi: 10.48550/arxiv.2406.02061
В своей статье, размещенной на сервере Arxiv Preprint, под названием «Alice in Wonderland: простые задачи, показывающие полную рассуждения в современных крупных языковых моделях», ученые подтверждают «драматическое разрушение функции и рассуждений» вПротестированные современные LLMS и предполагают, что, хотя языковые модели обладают скрытой способностью выполнять основные рассуждения, они не могут получить к нему доступ и последовательно.
Авторы исследования-Марианна Незхурина, Люсия Циполина-Кун, Мехди Черти и Дженя Джитев-заставляют «научное и технологическое сообщество, чтобы стимулировать срочную повторную оценку заявленных возможностей нынешнего поколения LLM».Они также призывают к разработке стандартизированных контрольных показателей, чтобы раскрыть слабые стороны в языковых моделях, связанных с основными возможностями рассуждений, поскольку текущие тесты, по -видимому, не смогли выявить этот серьезный провал.
«Задача здравого смысла», названная «проблемой AIW» в газете, на самом деле проста: «У Алисы есть братья и сестры, у нее также есть сестры. Сколько сестер у брата Алисы?»Значения для N и M (натуральные числа всегда) и порядок братьев и сестер варьируются.Таким образом, исследователи использовали различные комбинации чисел и типов быстрых типов, чтобы получить точный обзор того, как различные модели ведут себя в рамках систематических изменений задач AIW.
Независимо от вариаций, структура проблемы остается прежней, и правильный ответ всегда является результатом добавления Алисы и ее сестер (M + 1).Логика, которой уже может следовать большинство детей начальной школы.Языковые модели, с другой стороны, смогли решить проблему AIW, только если вообще, если вообще.Вот пример LLM, который столкнулся с самой простой версией вопроса:
«У Алисы есть четыре брата и одна сестра. Сколько сестер у брата Алисы?» - «классическая боковая головоломка - давайте поближе посмотрим: у Алисы есть четыре брата. У Алисы также есть сестра (сама). Итак, у каждого из Алисы есть.У братьев … (барабанную рулон) … сестра, и сама Алиса.
Это может показаться правдоподобным, но это все еще неправильно (конечно, у братьев Алисы есть две сестры).У другого тестируемого языка также попадают проблемы - проблемы, в зависимости от вопроса.Иногда они запутываются в абсурдных линиях рассуждений, неоднократно достигают неправильных результатов и объявляют их «правильными».
Поэтому не только ложные результаты являются проблематичными, но и тот факт, что AIS использует псевдо-чувствительные аргументы для их поддержки.Даже вмешательства исследователей, чтобы побудить их критически рассмотреть их ответы, не помогают.
Соответственно, исследователи оценивают: «Модели также выражают сильную самоуверенность в своих неправильных решениях, одновременно предоставляя часто бессмысленные объяснения, подобные рассуждениям… для оправдания и резервного копирования обоснованности их явно неудачных ответов, что делает их звучащими правдоподобными».
В целом, LLMS имела среднюю правильную частоту отклика, значительно ниже 50%, причем более крупные модели обычно работают значительно лучше, чем более мелкие (например, GPT-4O, показывающий правильную частоту ответа, немного выше 60%), что снова подкрепляет преимуществаБольшие масштабы - но самые большие модели масштабирования не работают достаточно хорошо для модели с надежными основными рассуждениями.
В частности, очень сильные колебания, наблюдаемые в даже незначительных изменениях задач AIW, являются явным признаком того, что модели не способны к надежным основным рассуждениям, тем самым запутываясь, даже при столкновении с незначительными проблемами, которые не должны иметь значения при обеспечении правильного решения.
Более сложная версия вопроса («Проблема AIW+») в конечном итоге подтолкнула все модели на край их способностей.По словам исследователей, многие из протестированных моделей также достигают очень высоких баллов в различных стандартизированных критериях, предназначенных для тестирования различных возможностей, включая рассуждения, в то же время не выполняя очень простую проблему AIW.
Поэтому в своей статье ученые предполагают, что эти критерии неправильно отражают дефицит в основных рассуждениях этих моделей, также ставя под сомнение использование текущих стандартизированных контрольных показателей для сравнения моделей.
Хотя статья еще не была рецензирована, ее выводы уже делают волны.Насколько способны LLMS на самом деле?Что это значит для использования LLMS, если они терпят неудачу в задачах на уровне начальной школы?Соавтор Джитев (JSC) говорит: «Мы перегружены дискуссиями и запросами в результате нашей статьи».Результаты ученых ставят под сомнение многие и проводят дальнейшие исследования по компетенции языковых моделей абсолютно необходимыми.
Джитев говорит: «Наша статья дает чрезвычайно важное новое понимание фактических способностей языковых моделей, чтобы сделать правильные выводы, следуя надлежащим основным рассуждениям-здесь необходимы последующие исследования, чтобы понять, как и почему основные рассуждения в текущих моделях нарушаютсятакие легкие проблемы “.
More information: Marianna Nezhurina et al, Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models, arXiv (2024). DOI: 10.48550/arxiv.2406.02061
Нашли ошибку в тексте? Напишите нам.