5 мин. чтения
6/17/2024 9:30:01 AM

Люди не могут отличить ChatGPT от человека

Article Preview Image Показатели прохождения (слева) и достоверность последователей (справа) для каждого типа свидетеля.Показатели прохождения - это доля времени, когда тип свидетеля считался человеком.Столбики ошибок представляют 95% доверительные интервалы начальной загрузки.Звезды значимости над каждой полосой указывают, значительно ли частота прохождения от 50%.Сравнения показывают значительные различия в показателях прохождения между типами свидетелей.Правильно: уверенность в суждениях человека и ИИ для каждого типа свидетеля.Каждая точка представляет одну игру.Точки дальше влево и вправо указывают на более высокую уверенность в ИИ и человеческих вердиктах соответственно.Кредит: Джонс и Берген.

Большие языковые модели (LLMS), такие как модель GPT-4, лежащая в основе широко используемой платформы LRNGHAL CHATGPT, удивляют пользователей своей способностью понимать письменные подсказки и генерировать подходящие ответы на различных языках.Таким образом, некоторые из нас могут задаться вопросом: созданы ли тексты и ответы эти модели настолько реалистичными, что их можно было принять за написанные людьми?

Исследователи в Калифорнийском университете в Сан-Диего недавно попытались ответить на этот вопрос, запустив тест Тьюринга, известный метод, названный в честь компьютерного ученых Алана Тьюринга, предназначенного для оценки степени, в которой машина демонстрирует человеческий интеллект.

Результаты этого теста, изложенные в статье, предварительно опубликованной на сервере ARXIV, позволяют предположить, что людям трудно различить модель GPT-4 и человеческий агент при взаимодействии с ними как часть 2-личного LRNч.

«Идея для этой статьи фактически проистекала из класса, который Бен работал на LLMS»,-сказал Tech Xplore Кэмерон Джонс, соавтор газеты.

«В первую неделю мы прочитали несколько классических документов о тесте Тьюринга, и мы обсудили, может ли LLM передать его и будет ли это иметь значение, если бы это ни было. Насколько я мог судить, никто не пробовал в этот момент, поэтому яРешил создать эксперимент, чтобы проверить это как мой класс проект, а затем мы продолжили провести первый публичный исследовательский эксперимент ».

Первое исследование, проведенное Джонсом и контролируемое Бергеном, профессором когнитивной науки в Калифорнийском университете в Сан-Диего, дало некоторые интересные результаты, предполагая, что GPT-4 может пройти как человек примерно в 50% взаимодействий.Тем не менее, их исследовательский эксперимент не хорошо контролировался для некоторых переменных, которые могут повлиять на результаты, поэтому они решили провести второй эксперимент, дав результаты, представленные в их недавней статье.

«Когда мы проходили процесс проведения исследований, мы обнаружили, что другие люди также делают большую работу в этой области, в том числе игра« Человек или нет »Джаннаи и др., - сказал Джонс.«Мы создали онлайн-версию игры с двумя игроками, в которой участники человека либо будут сопоставлены с другим человеком или моделью ИИ».

Во время каждого испытания в игре с двумя игроками, используемой Джонсом и его коллегами, человеческий следователь взаимодействует с «свидетелем», который может быть либо человеком, либо агентом ИИ.Подоседчик задает свидетелям серию вопросов, чтобы попытаться определить, является ли он человеком или нет.

«Лернс длился до пяти минут, и в конце концов пособитель вынес решение о том, считают ли они свидетельство человеком или ИИ», - объяснил Джонс.«В течение пяти минут участники могли говорить обо всем, что они хотели (кроме того, что говорили о оскорбительных вещах, которые мы использовали фильтр, чтобы предотвратить)».

В этой компьютерной игре с двумя игроками исследователи развернули три разных LLM в качестве потенциальных свидетелей, а именно модели GPT-4, GPT 3.5 и Eliza.Они обнаружили, что, хотя пользователи часто могут определить, что модели Eliza и GPT-3.5 были машинами, их способность выяснить, была ли GPT-4 человеком или машиной, была не лучше, чем вероятность, они поняли бы это правильно, если выбирать случайным образом (то есть, то естьслучайно).

«Несмотря на то, что настоящие люди были на самом деле более успешными, убеждая следователей, что они были человеческими две трети времени, наши результаты показывают, что в реальном мире люди могут не достоверно сказать, разговаривают ли они с человеком или системой ИИ, - сказал Джонс.

«На самом деле, в реальном мире люди могут быть меньше осознавать возможность того, что они разговаривают с системой ИИ, поэтому скорость обмана может быть еще выше. Я думаю, что это может иметь последствия для видов вещей, которые ИИСистемы будут использоваться для того, будь то автоматизация заданий с клиентом или использоваться для мошенничества или дезинформации ».

Результаты теста Тьюринга, проведенного Джонсом и Бергеном, показывают, что LLMS, особенно GPT-4, едва ли отличались от людей во время короткого чата.Эти наблюдения предполагают, что люди могут скоро становиться все более недоверчивыми к другим, с которыми они взаимодействуют с онлайн, так как они могут все больше не уверены, являются ли они людьми или ботами.

Исследователи в настоящее время планируют обновить и повторно открыть общественный тест на Тьюринга, который они разработали для этого исследования, чтобы проверить некоторые дополнительные гипотезы.Их будущие работы могут собрать дальнейшее интересное представление о том, в какой степени люди могут различать людей и LLM.

«Мы заинтересованы в управлении версией игры с тремя людьми, где одновременно следователь говорит с человеческой и системой ИИ и должен выяснить, кто есть кто»,-добавил Джонс.

«Мы также заинтересованы в тестировании других видов настройки искусственного интеллекта, например, предоставляя агентам доступ к живым новостям и погоде, или на« царапин -наплетку », где они могут делать заметки, прежде чем они отвечают. Наконец, мы заинтересованы в проверке того, убедительно ли ИИ убедительным ИИ.Возможности распространяются на другие области, такие как убедительные люди верить лжи, голосовать за конкретную политику или пожертвовать деньги на дело ».

More information: Cameron R. Jones et al, People cannot distinguish GPT-4 from a human in a Turing test, arXiv (2024). DOI: 10.48550/arxiv.2405.08007

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Модель для планирования и управления движениями гуманоидов в 3D средах

7/11/2024 · 5 мин. чтения

Модель для планирования и управления движениями гуманоидов в 3D  средах

Исследователи вводят генеративный ИИ для анализа сложных табличных данных

7/9/2024 · 5 мин. чтения

Исследователи вводят генеративный ИИ для анализа сложных табличных данных