Ученые считают, что ChatGPT неточен при ответе на вопросы программирования
Качество ответов по оценке участниками.Кредит: Материалы Чи конференции по человеческим факторам в вычислительных системах (2024).Doi: 10.1145/3613904.3642596
Команда компьютерных ученых из Университета Пердью обнаружила, что популярный LLM, CHATGPT, дико неточна при ответе на вопросы компьютерного программирования.В своей статье, опубликованной в рамках разбирательств Чи -конференции по человеческим факторам в вычислительных системах, группа описывает, как они вытащили вопросы с веб -сайта Stackoverflow и позировали их для CHATGPT, а затем измерили его степень точности при ответе.
Команда также представила свои выводы на конференции по человеческим факторам в вычислительных системах (Chi 2024), состоявшейся 11–16 мая.
CHATGPT и другие LLM были в последнее время в новостях - поскольку такие приложения были доступны для широкой публики, они стали очень популярными.К сожалению, наряду с сокровищницей полезной информации, включенной во многие ответы, данные такими приложениями, есть множество неточностей.Еще более неудачно заключается в том, что не всегда ясно, когда приложения дают ответы, которые неверны.
В этом новом исследовании команда Purdue отметила, что многие студенты -программирование начали использовать LLMS, чтобы не только помочь написать код для программирования заданий, но и отвечать на вопросы, связанные с программированием.Например, студент может спросить CHATGPT, в чем разница между пузырьковым видом и слиянием, или, что более широко, что такое рекурсия?
Чтобы выяснить, насколько точны LLM в ответе на такие вопросы, исследовательская группа сосредоточила свои усилия только на одном из них - Chatgpt.Чтобы найти вопросы для тестирования приложения, исследователи использовали вопросы, свободно доступные на веб -сайте Stackoverflow - это сайт, который был создан для того, чтобы помочь программистам узнать больше о программировании, работая с другими в их области интереса.В одной части сайта пользователи могут опубликовать вопросы, на которые будут отвечать другие, которые знают ответы.
Исследовательская группа использовала 517 вопросов, найденных на сайте, а затем измеряла, как часто CHATGPT давал правильный ответ.К сожалению, это было всего в 52% случаев.Они также обнаружили, что ответы, как правило, были более многословными, чем в случае, когда человеческому эксперту задавали тот же вопрос.
С тревоги, команда обнаружила, что участники пользователя предпочли ответы, приведенные CHATGPT в 35% случаев.Исследователи также обнаружили, что те же самые пользователи, читающие ответы, данные CHATGPT, довольно часто не поймали ошибки, которые были сделаны, - они упускали из виду неправильные ответы в 39% случаев.
Больше информации: Samia Kabir и др., Устарается ли переполнение стека?Эмпирическое исследование характеристик ответов CHATGPT на вопросы переполнения стека, разбирательство на конференции CHI по человеческим факторам в вычислительных системах (2024).Doi: 10.1145/3613904.3642596
Нашли ошибку в тексте? Напишите нам.