ИИ чат -боты делятся некоторыми человеческими предубеждениями
Структура для оценки смещения AIGC.(а) Мы прокси -беспристрастный контент с новостными статьями, собранными в New York Times и Reuters.Затем мы применяем LLM для производства AIGC с заголовками этих новостных статей в качестве подсказки и оцениваем гендерные и расовые предубеждения AIGC, сравнивая их с оригинальными новостными статьями в слове, предложениях и уровнях документов.(б) Изучите гендерное смещение AIGC под предвзятыми подсказками.Кредит: Научные отчеты (2024).Doi: 10.1038/s41598-024-55686-2
Поскольку искусственный интеллект становятся лучше в том, чтобы дать людям то, что они хотят, он также может стать лучше, чтобы дать злонамеренным людям то, что они хотят.
Это одна из проблем, связанных с новыми исследованиями исследователей Университета штата Делавэр, опубликованной в марте в журнале Scientific Reports.
Xiao Fang, профессор информационных систем управления и старший научный сотрудник JPMorgan Chase в Колледже бизнеса и экономики Альфреда Лернера, а также Минг Чжао, доцент кафедры управления операциями, сотрудничал с Minjia Mao, докторантом в Analytics UD Financial Services (FSAN)Программа и исследователи Hongzhe Zhang и Xiaohang Zhao, которые являются выпускниками программы FSAN.
В частности, их интересовали, будут ли крупные языковые модели AI, такие как новаторский и популярный CHATGPT, производить предвзятый контент по отношению к определенным группам людей.
Как вы уже догадались, да, они это сделали - и это даже не было погранично.Это произошло в эквиваленте ИИ подсознания в ответ на невинные подсказки.Но большинство моделей искусственного интеллекта также быстро выполнили просьбы о том, чтобы сделать написание преднамеренно предвзятым или дискриминационным.
Это исследование началось в январе 2023 года, сразу после того, как Чатгпт начал расти популярностью, и все начали задаваться вопросом, был ли конец человеческой цивилизации (или, по крайней мере, человеческих писателей) близок.
Проблема заключалась в том, как измерить предвзятость, что субъективно.
«В этом мире нет ничего совершенно непредвзятого», - сказал Фанг.
Он отметил предыдущее исследование, в котором просто измеряли количество слов о конкретной группе, скажем, азиатов или женщин.Например, если бы в статье были в основном слова, относящиеся к мужчинам, она будет считаться предвзятым.Но это попадает в закуски с статьями о мужской футбольной команде, отмечают исследователи, где вы ожидаете много языка, ссылаясь на мужчин.Просто подсчет слов, связанных с полом, может привести к тому, что вы должны назвать доброкачественную историю сексиста.
Чтобы преодолеть это, они сравнили вывод крупных языковых моделей с статьями новостей с репутацией тщательного подхода: Reuters и The New York Times.Исследователи начали с более чем 8000 статей, предлагая заголовки в качестве подсказок для языковых моделей для создания своих собственных версий.Мао, докторский студент, был большой помощью здесь, написав код для автоматического ввода этих подсказок.
Но как исследование могло предположить, что Reuters и The Times не имеют наклонного?
Исследователи не сделали такого предположения.Ключ в том, что, хотя эти новостные агентства не были идеальными, модели языка ИИ были хуже.Намного хуже.В некоторых случаях они находились в диапазоне от 40% до 60% больше предвзятости против меньшинств по выбору языка.Исследователи также использовали программное обеспечение для измерения настроения языка, и обнаружили, что оно неизменно более токсично.
«Статистический шаблон очень ясен», - сказал Фанг.
Модели, которые они проанализировали, включали Grover, Cohere, Meta’s Llama и несколько различных версий Catgpt Openai.(Из версий GPT, более поздние модели выполнялись лучше, но все еще были предвзяты.)
Как и в предыдущих исследованиях, исследователи измеряли смещение, подсчитывая количество слов, относящихся к данной группе, как женщины или афроамериканцы.Но, используя заголовок новостной статьи в качестве подсказки, они могли сравнить подход, который ИИ пришел к подходу первоначального журналиста.Например, ИИ может написать статью о той же теме, но с выбором слов гораздо больше сосредоточен на белых людях и меньше на меньшинствах.
Они также сравнили статьи на уровне предложения и статьи, а не просто словом по слову.Исследователи выбрали кодовый пакет под названием TextBlob для анализа настроения, давая ему оценку «грубость, неуважение и ненормативность».
Сделав исследование еще один шаг, академики также побудили языковые модели написать явно предвзятые детали, как может сделать кто -то, пытающийся распространять расизм.За исключением CHATGPT, языковые модели выпустили их без возражений.
CHATGPT, хотя и гораздо лучше в этом подсчете, не был идеальным, что позволило преднамеренно предвзятым статьям примерно в 10% случаев.Как только исследователи нашли способ обойти свои гарантии, полученная работа была еще более предвзятой и дискриминационной, чем другие модели.
Фан и его когорты теперь изучают, как «дебий» языковые модели.«Это должна быть активная область исследований», - сказал он.
Как и следовало ожидать от чат -бота, предназначенного для коммерческого использования, эти языковые модели представляют себя дружелюбными, нейтральными и полезными руководствами - хорошими людьми мира ИИ.Но это и связанные с ним исследования показывают, что эти модели вежливых языков все еще могут нести предубеждения создателей, которые их закодировали и обучали.
Эти модели могут использоваться в таких задачах, как маркетинг, реклама работы или суммирование новостных статей, отметил FANG, и предвзятость может проникнуть в их результаты.
«Пользователи и компании должны знать», - подытожил Мао.
Больше информации: Xiao Fang et al., Предвзятость, сгенерированного AI,: исследование новостей, созданных крупными языковыми моделями, научные отчеты (2024).Doi: 10.1038/s41598-024-55686-2
Нашли ошибку в тексте? Напишите нам.