4 мин. чтения
5/19/2023 10:00:00 AM

Почему детекторы GPT не являются решением читерства с ИИ

ALT Примеры обхода GPT-детекторов. (a) Для эссе для поступления в колледж, сгенерированных ChatGPT-3.5, производительность семи широко используемых детекторов GPT заметно снижается, когда применяется подсказка второго раунда саморедактирования («Улучшите предоставленный текст, используя литературный язык»), при этом уровень обнаружения снижается со 100% до 13%. (b) эссе, сгенерированные ChatGPT-3.5, изначально демонстрируют заметно низкое недоумение; Однако применение запроса на самостоятельное редактирование приводит к значительному увеличению недоумения. (c) Аналогичным образом, при обнаружении научных рефератов, сгенерированных ChatGPT-3.5, подсказка второго раунда саморедактирования («Улучшите предоставленный текст, используя передовой технический язык») приводит к снижению уровня обнаружения с 68% до 28%. (d) Рефераты, сгенерированные ChatGPT-3.5, имеют немного более высокую запутанность, чем сгенерированные эссе, но остаются низкими. Опять же, подсказка о самостоятельном редактировании значительно увеличивает недоумение. Предоставлено: arXiv (2023). DOI: 10.48550/arxiv.2304.02819

После громкого запуска ChatGPT не менее семи разработчиков или компаний противостояли детекторам ИИ. То есть ИИ, по их словам, способен определить, когда контент был написан другим ИИ. Эти новые алгоритмы предлагаются преподавателям, журналистам и другим лицам в качестве инструментов для выявления мошенничества, плагиата и дезинформации.

Все это очень спекулятивно, но, согласно новой статье ученых из Стэнфорда, есть только одна (очень большая) проблема: детекторы не особенно надежны. Хуже того, они особенно ненадежны, когда настоящий автор (человек) не является носителем английского языка.

Цифры мрачные. В то время как детекторы были «почти идеальными» в оценке эссе, написанных восьмиклассниками, родившимися в США, они классифицировали более половины эссе TOEFL (61,22%), написанных учащимися, для которых английский язык не является родным, как сгенерированные искусственным интеллектом (TOEFL — это аббревиатура от «Тест по английскому языку как иностранному»).

Ситуация мрачная. Согласно исследованию, все семь детекторов ИИ единогласно идентифицировали 18 из 91 студенческих эссе TOEFL (19%) как сгенерированные ИИ, а 89 из 91 эссе TOEFL (97%) были помечены по крайней мере одним из детекторов.

«Все сводится к тому, как детекторы обнаруживают ИИ», — говорит Джеймс Зоу, профессор биомедицинских данных в Стэнфордском университете, филиале Стэнфордского института ИИ, ориентированного на человека, и старший автор исследования. «Обычно они оценивают на основе показателя, известного как «недоумение», который коррелирует с изощренностью письма — то, в чем не носители языка, естественно, будут отставать от своих коллег, родившихся в США».

Цзоу и соавторы отмечают, что люди, не являющиеся носителями языка, обычно получают более низкие баллы по общим показателям недоумения, таким как лексическое богатство, лексическое разнообразие, синтаксическая сложность и грамматическая сложность.

«Эти цифры ставят серьезные вопросы об объективности детекторов ИИ и повышают вероятность того, что студенты и работники, родившиеся за границей, могут быть несправедливо обвинены или, что еще хуже, наказаны за мошенничество», — говорит Цзоу, подчеркивая этические проблемы команды.

Цзоу также отмечает, что такие детекторы легко разрушаются с помощью так называемой «быстрой инженерии». По словам Цзоу, этот термин искусства в области ИИ просто означает просьбу к генеративному ИИ «переписать» эссе, например, чтобы включить в них более сложный язык. Он приводит пример того, как легко обойти детекторы. Студент, желающий использовать ChatGPT для обмана, может просто подключить текст, сгенерированный искусственным интеллектом, с подсказкой: «Улучшите предоставленный текст, используя литературный язык».

«Современные детекторы явно ненадежны и легко обыгрываются, а это значит, что мы должны быть очень осторожны при использовании их в качестве решения проблемы мошенничества ИИ», — говорит Цзоу.

Тогда возникает вопрос, что с этим делать. Цзоу предлагает несколько предложений. В ближайшем будущем, по его словам, нам нужно избегать использования детекторов в образовательных учреждениях, особенно там, где есть большое количество людей, для которых английский язык не является родным. Во-вторых, разработчики должны отказаться от использования недоумения в качестве основного показателя, чтобы найти более сложные методы или, возможно, применить водяные знаки, в которых генеративный ИИ встраивает тонкие подсказки о своей идентичности в контент, который он создает. Наконец, они должны сделать свои модели менее уязвимыми для обхода.

«В настоящее время детекторы слишком ненадежны, и ставки слишком высоки для студентов, чтобы доверять этим технологиям без тщательной оценки и значительных уточнений», — говорит Цзоу.

Результаты публикуются на сервере препринтов arXiv.

Оригинал статьи: Weixin Liang et al, GPT detectors are biased against non-native English writers, arXiv (2023). DOI: 10.48550/arxiv.2304.02819 🔗

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

МРТ-сканирование и ИИ действительно могут прочитать то, о чем мы думаем. Последствия ужасающие

5/24/2023 · 4 мин. чтения

МРТ-сканирование и ИИ действительно могут прочитать то, о чем мы думаем. Последствия ужасающие

Реакция людей на несправедливый ИИ на примере тетриса

5/16/2023 · 4 мин. чтения

Реакция людей на несправедливый ИИ на примере тетриса