3 мин. чтения
5/28/2024 11:20:01 AM

Ученые считают, что ChatGPT неточен при ответе на вопросы программирования

Article Preview Image Качество ответов по оценке участниками.Кредит: Материалы Чи конференции по человеческим факторам в вычислительных системах (2024).Doi: 10.1145/3613904.3642596

Команда компьютерных ученых из Университета Пердью обнаружила, что популярный LLM, CHATGPT, дико неточна при ответе на вопросы компьютерного программирования.В своей статье, опубликованной в рамках разбирательств Чи -конференции по человеческим факторам в вычислительных системах, группа описывает, как они вытащили вопросы с веб -сайта Stackoverflow и позировали их для CHATGPT, а затем измерили его степень точности при ответе.

Команда также представила свои выводы на конференции по человеческим факторам в вычислительных системах (Chi 2024), состоявшейся 11–16 мая.

CHATGPT и другие LLM были в последнее время в новостях - поскольку такие приложения были доступны для широкой публики, они стали очень популярными.К сожалению, наряду с сокровищницей полезной информации, включенной во многие ответы, данные такими приложениями, есть множество неточностей.Еще более неудачно заключается в том, что не всегда ясно, когда приложения дают ответы, которые неверны.

В этом новом исследовании команда Purdue отметила, что многие студенты -программирование начали использовать LLMS, чтобы не только помочь написать код для программирования заданий, но и отвечать на вопросы, связанные с программированием.Например, студент может спросить CHATGPT, в чем разница между пузырьковым видом и слиянием, или, что более широко, что такое рекурсия?

Чтобы выяснить, насколько точны LLM в ответе на такие вопросы, исследовательская группа сосредоточила свои усилия только на одном из них - Chatgpt.Чтобы найти вопросы для тестирования приложения, исследователи использовали вопросы, свободно доступные на веб -сайте Stackoverflow - это сайт, который был создан для того, чтобы помочь программистам узнать больше о программировании, работая с другими в их области интереса.В одной части сайта пользователи могут опубликовать вопросы, на которые будут отвечать другие, которые знают ответы.

Исследовательская группа использовала 517 вопросов, найденных на сайте, а затем измеряла, как часто CHATGPT давал правильный ответ.К сожалению, это было всего в 52% случаев.Они также обнаружили, что ответы, как правило, были более многословными, чем в случае, когда человеческому эксперту задавали тот же вопрос.

С тревоги, команда обнаружила, что участники пользователя предпочли ответы, приведенные CHATGPT в 35% случаев.Исследователи также обнаружили, что те же самые пользователи, читающие ответы, данные CHATGPT, довольно часто не поймали ошибки, которые были сделаны, - они упускали из виду неправильные ответы в 39% случаев.

Больше информации: Samia Kabir и др., Устарается ли переполнение стека?Эмпирическое исследование характеристик ответов CHATGPT на вопросы переполнения стека, разбирательство на конференции CHI по человеческим факторам в вычислительных системах (2024).Doi: 10.1145/3613904.3642596

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Новый инструмент обнаруживает фальшивые научные статьи, созданные AI

8/6/2024 · 3 мин. чтения

Новый инструмент обнаруживает фальшивые научные статьи, созданные AI

Новая технология повышает сжатие данных в реальном времени для ИИ

8/6/2024 · 3 мин. чтения

Новая технология повышает сжатие данных в реальном времени для ИИ

*Facebook, Instagram, Meta - запрещенные в РФ организации.