Новый инструмент обнаруживает фальшивые научные статьи, созданные AI
Кредит: Unsplash/CC0
Ахмед Абдин Хамед, посещающий научный сотрудник в колледже Инженерной и прикладной науки Университета Бингемтонского университета, создал алгоритм машинного обучения, который он называет Xfakesci, который может обнаружить до 94% фальшивых работ-более в два раза больше успешного, чем больше распространенного.Методы сбора данных.
«Мое основное исследование - биомедицинская информатика, но поскольку я работаю с медицинскими публикациями, клиническими испытаниями, онлайн -ресурсами и добычей социальных сетей, я всегда обеспокоен подлинностью знаний, которые кто -то распространяет», - сказал Хамед, который является частью ДжорджаДж. Клир Профессор системных наук Луис М. Роча Адаптивные системы и лаборатория вычислительной интеллекта.
«В частности, биомедицинские статьи сильно пострадали во время глобальной пандемии, потому что некоторые люди публикуют ложные исследования».
В новой статье, опубликованной в журнале Scientific Reports, Hamed and Collaborator Xindong Wu, профессора Технологического университета Хефей в Китае, создал 50 поддельных статей для каждой из трех популярных медицинских тем - Альцгеймер, рак и депрессия - и сравнивали их сТакое же количество реальных статей на те же темы.
Хамед сказал, когда он спросил CHATGPT о сгенерированных AI документах: «Я пытался использовать те же ключевые слова, которые я использовал для извлечения литературы из базы данных PubMed [Национальных институтов здравоохранения, поэтому у нас была бы общая основа сравнения.Моя интуиция заключалась в том, что в фальшивом мире должна появляться образец, выставленная в фальшивом мире, но я понятия не имел, что это за шаблон ».
После некоторых экспериментов он запрограммировал Xfakesci для анализа двух основных особенностей, связанных с тем, как были написаны статьи.Одним из них является количество биграм, которые представляют собой два слова, которые часто появляются вместе, такие как «изменение климата», «клинические испытания» или «биомедицинская литература».Во -вторых, эти биграмы связаны с другими словами и концепциями в тексте.
«Первая поразительная вещь заключалась в том, что количество биграм было очень мало в фальшивом мире, но в реальном мире Биграмы были гораздо более богатыми», - сказал Хамед.«Кроме того, в фальшивом мире, несмотря на то, что было очень мало биграм, они были так связаны со всем остальным».
Hamed и Wu теоретизируют, что стили письма различны, потому что у людей -исследователей нет таких же целей, что и AIS, побудили создать произведение на данную тему.
«Поскольку Chatgpt по -прежнему ограничен в своих знаниях, он пытается убедить вас, используя наиболее значимые слова», - сказал Хамед.«Ученый не в том, что ученые выдвигают вам убедительный аргумент. Настоящий исследовательский документ честно рассказывает о том, что произошло во время эксперимента и используемого метода. Chatgpt - это глубина в одной точке, в то время как настоящая наука - это широта.”
Выдающийся профессор и председатель Департамента системной науки и промышленной инженерии Мохаммад Т. Хасавнех высоко оценил исследования Хамеда.
«Мы очень рады, что самое последнее дополнение к нашему надежному списку посетителей профессоров, доктор Ахмед Абдин Хамед, работает над такими новыми идеями», - сказал он.«В эпоху, когда« Deepfakes »теперь являются частью широкой публики Lrnч, его работа невероятно своевременна и актуальна на многих уровнях. Мы взволнованы обещанием его работы и с нетерпением ждем дальнейшего сотрудничества с ним».
Для дальнейшего развития Xfakesci Hamed планирует расширить диапазон тем, чтобы увидеть, удерживаются ли рецензируемые схемы слов для других областей исследований, выходя за рамки медицины, включающую инженерию, другие научные темы и гуманитарные науки.Он также предвидит, что ИИ становится все более изощренным, поэтому определение того, что является и не реально, будет становиться все более сложным.
«Мы всегда будем играть в догадке, если мы не разработаем что -то всеобъемлющее», - сказал он.«У нас впереди много работы, чтобы искать общий шаблон или универсальный алгоритм, который не зависит от того, какая версия генеративного ИИ используется».
Потому что, несмотря на то, что их алгоритм улавливает 94% статей, сгенерированных AI, добавил он, это означает, что 6 из 100 подделок все еще проходят: «Мы должны быть скромными в отношении того, чего мы достигли. Мы сделали что-то очень важное подповышение осведомленности.”
More information: Ahmed Abdeen Hamed et al, Detection of ChatGPT fake science with the xFakeSci learning algorithm, Scientific Reports (2024). DOI: 10.1038/s41598-024-66784-6
Нашли ошибку в тексте? Напишите нам.