Chatgpt решает задачи лучше, когда он замедляется
Кредит: Природа вычислительная наука (2023).Doi: 10.1038/s43588-023-00527-x
Большие языковые модели, такие как CHATGPT быстро движутся по умолчанию.Задайте им вопрос, и они выплюнут ответ-не обязательно тот, который является правильным,-сами по себе, что они способны быстро обрабатывать систему 1.Тем не менее, по мере того, как эти модели развиваются, могут ли они замедлить и подходить к проблемам, избегая неточностей, которые возникают в результате быстрых ответов?
В новой статье, опубликованной в Nature Computational Science, Михал Косински, профессор организационного поведения в Стэнфордской аспирантуре бизнеса, обнаруживает, что они могут,-и что они могут превзойти людей в основных тестах рассуждений и принятия решений.
Косински и его два соавтора, философ Тило Хагендорф и психолог Сара Фаби представили 10 поколений Openai LLMS с батареей задач, предназначенных для быстрых ответов System 1.Первоначально команда была заинтересована в том, будут ли LLMS проявлять когнитивные предубеждения, подобные тем, кто снимает людей, когда они полагаются на автоматическое мышление.
Они заметили, что ранние модели, такие как GPT-1 и GPT-2, «не могли понять, что происходит», говорит Косински.Их ответы «были очень системой 1-го, так как тесты увеличились в сложности.«Очень похоже на ответы, которые будут иметь люди», - говорит он.
Не неожиданно, что LLM, которые предназначены для прогнозирования строк текста, не могли рассуждать самостоятельно.«Эти модели не имеют внутренних циклов рассуждений», - говорит Косински.«Они не могут просто внутренне замедлить себя и сказать:« Позвольте мне подумать об этой проблеме; позвольте мне проанализировать предположения ».Единственное, что они могут сделать, - это интуитивное слово в предложении ».
Тем не менее, исследователи обнаружили, что более поздние версии GPT и CHATGPT могут участвовать в более стратегическом, тщательном решении проблем в ответ на подсказки.Косински говорит, что он был удивлен появлением 2-подобной обработки этой системы.«Внезапно GPT3 становится в состоянии, от одной секунды к другой, без какого -либо переподготовки, без роста новых нейронных связей, чтобы решить эту задачу», - говорит он.«Это показывает, что эти модели могут сразу учиться, как люди».
Вот одна из проблем, которую исследователи задавали моделям GPT: каждый день количество лилий, растущих в удвоении озера.Если для того, чтобы озеро было полностью покрыто, требуется 10 дней, сколько дней требуется, чтобы половина озера была покрыта?(Продолжайте читать, чтобы увидеть ответ.)
Поясняет этот вид теста на когнитивное отражение, требует рассуждений, а не интуиции.Получение правильного ответа требует, чтобы вы замедлились, возможно, возьмите накладку бумаги или калькулятора и проанализировали задачу.«Он предназначен для того, чтобы обмануть человека в системе 1 мышление», - объясняет он.«Кто -то может подумать», ладно, 10 дней для всего озера.Таким образом, половина из 10 составляет пять, «не хватает того факта, что область, охватываемая этими планами, удваивается каждый день, что рост является экспоненциальным».Правильный ответ: требуется девять дней, чтобы половина озера была покрыта.
Менее 40% человеческих субъектов, которым дали такие проблемы, сделали их правильно.Более ранние версии генеративных предварительно обученных моделей трансформатора (GPT), которые предшествовали CHATGPT, работали еще более плохо.Тем не менее, GPT-3 достиг правильных ответов через более сложные рассуждения «цепочка размышлений», когда ему было дано положительное подкрепление и обратную связь от исследователей.
«Только что задавая задачу, GPT-3 правильно решает менее 5%,-сказал Косински,-и никогда не использует каких-либо пошаговых рассуждений. Но если вы добавите конкретное направление, как:« Давайте используем алгебру для решения этого.Проблема: «Он использует пошаговые рассуждения в 100% случаев, и его точность увеличивается примерно до 30%-увеличение на 500%».Частота ответов System-1 также упала с примерно 80% до 25%, «показывая, что даже когда это понимает, это не так подвержено интуитивным ошибкам».Когда CHATGPT-4 использовал рассуждения о цепочке мыслей, он получил правильный ответ почти на 80% этих типов тестов.
Исследователи также обнаружили, что, когда CHATGPT не мог выполнить рассуждения System-2, он все еще превзошел людей.Косински говорит, что это свидетельствует о том, что «интуиция» LLMS может быть лучше, чем у нас.
Косински, который изучал непредвиденные (а иногда и тревожные) способности LLMS, говорит, что эти выводы являются еще одним доказательством того, что модель ИИ может быть «больше, чем сумма его частей».Нейронные сети, лежащие в основе языковых моделей, которые похожи на мозг человека, продолжают показывать возникающие свойства, которые выходят за рамки их обучения.«Просто безумно думать, что эта вещь сможет написать стихи, иметь Лрн и понять очень сложные понятия и разум», - говорит Косински.
Это действительно «мышление», хотя?«Когда люди говорят:« Очевидно, эти модели не думают »:« Это совсем не очевидно », - говорит Косински.«Если вы заметите, что способность рассуждать в этих моделях возникла спонтанно, почему другие способности не появятся спонтанно?»
Однако в своей статье Косински и его соавторы отмечают, что они «не значат приравнивать искусственный интеллект и человеческие когнитивные процессы. В то время как результаты ИИ часто похожи на те, которые производятся людьми, обычно они действуют принципиально разными способами».
Тем не менее, если бы человек демонстрировал когнитивные процессы, наблюдаемые в этом исследовании, говорит Косински, мы наверняка назвали бы это пониманием.«Вопрос, который мы должны задавать себе все чаще, заключается в том, что мы настаиваем на том, что если человек что -то делает, это подразумевает понимание, но если модель что -то делает, мы просто говорим:« О, это действительно должно быть что -то еще? »Косински спрашивает.«В какой -то момент становится необычайно, что вы попытаетесь объяснить это чем -то другим, кроме понимания».
Больше информации: Thilo Hagendorff и др., Человеческие интуитивные поведение и рассуждения появились в моделях крупных языков, но исчезли в Catgpt, Nature Computational Science (2023).Doi: 10.1038/s43588-023-00527-x
Нашли ошибку в тексте? Напишите нам.