Исследователи вводят генеративный ИИ для анализа сложных табличных данных
Обзор Gensql.Кредит: Материалы ACM на языках программирования (2024).Doi: 10.1145/3656409
Новый инструмент упрощает пользователям базы данных провести сложный статистический анализ табличных данных без необходимости знать, что происходит за кулисами.
Gensql, генеративная система ИИ для баз данных, может помочь пользователям делать прогнозы, обнаружить аномалии, угадать недостающие значения, исправлять ошибки или генерировать синтетические данные только с несколькими нажатиями клавиш.
Например, если бы система использовалась для анализа медицинских данных от пациента, у которого всегда было высокое кровяное давление, она мог бы уловить считывание артериального давления, которое является низким для этого конкретного пациента, но в противном случае было бы в нормальном диапазоне.
GENSQL автоматически интегрирует табличный набор данных и генеративную вероятностную модель ИИ, которая может учитывать неопределенность и скорректировать их принятие решений на основе новых данных.
Кроме того, GensQL можно использовать для производства и анализа синтетических данных, которые имитируют реальные данные в базе данных.Это может быть особенно полезно в ситуациях, когда конфиденциальные данные не могут быть переданы, например, медицинские записи пациентов, или когда реальные данные являются скудными.
Этот новый инструмент построен на вершине SQL, языка программирования для создания и манипуляций с базой данных, который был представлен в конце 1970 -х годов и используется миллионами разработчиков по всему миру.
«Исторически, SQL научил бизнес-мир, что мог сделать компьютер. Им не нужно было писать пользовательские программы, им просто нужно было задавать вопросы базы данных на языке высокого уровня.
«Мы думаем, что, когда мы переходим от простого запроса данных к вопросу вопросов моделей и данных, нам понадобится аналогичный язык, который обучает людей последовательным вопросам, которые вы можете задать компьютеру, у которого есть вероятностная модель данных», - говоритсяВикаш Мэнсингека, старший автор статьи, внедряющего Gensql, и главный ученый -исследователь и лидер проекта вероятностных вычислительных наук в отделе мозга и когнитивных наук MIT.
Исследование опубликовано в журнале «Слушания ACM по языкам программирования».
Когда исследователи сравнивали GensQL с популярными, основанными на искусственном интеллектом подходов к анализу данных, они обнаружили, что это не только быстрее, но и дало более точные результаты.Важно отметить, что вероятностные модели, используемые Gensql, объясняются, поэтому пользователи могут читать и редактировать их.
«Глядя на данные и попытка найти некоторые значимые закономерности, просто используя некоторые простые статистические правила, могут пропустить важные взаимодействия. Вы действительно хотите захватить корреляции и зависимости переменных, которые могут быть довольно сложными, в модели.
«С Gensql мы хотим, чтобы большой набор пользователей запрашивал свои данные и свою модель, не зная всех деталей», - добавляет ведущий автор Матье Хуот, научный сотрудник Департамента мозга и когнитивных наук и членВероятностный вычислительный проект.
Они присоединяются на газете Матин Гавами и Александр Лью, аспиранты MIT;Кэмерон Фриер, научный сотрудник;Ульрих Шехтель и Зейн Шелби из цифрового гаража;Мартин Ринард, профессор MIT в факультете электротехники и информатики и член Лаборатории компьютерного и искусственного интеллекта (CSAIL);и Ферас Саад, доцент университета Карнеги -Меллона.
Исследование было недавно представлено на конференции ACM по проектированию и реализации языка программирования (PLDI 2024).
SQL, который означает структурированный язык запросов, является языком программирования для хранения и манипулирования информации в базе данных.В SQL люди могут задавать вопросы о данных с использованием ключевых слов, таких как суммирование, фильтрация или группировка записей базы данных.
Тем не менее, запрос модели может обеспечить более глубокое понимание, поскольку модели могут запечатлеть то, что подразумевают данные для человека.Например, женщина -разработчика, которая задается вопросом, недоплачивается ли ей, вероятно, больше заинтересован в том, что значат данные о зарплате для нее индивидуально, чем в тенденциях из записей базы данных.
Исследователи заметили, что SQL не предоставил эффективный способ включения вероятностных моделей ИИ, но в то же время подходы, которые используют вероятностные модели для выводов, не поддерживали сложные запросы базы данных.
Они создали Gensql, чтобы заполнить этот пробел, позволяя кому -то запросить как набор данных, так и вероятностную модель, используя простой, но мощный формальный язык программирования.
Пользователь GENSQL загружает свои данные и вероятностную модель, которую система автоматически интегрирует.Затем она может запустить запросы на данные, которые также получают ввод от вероятностной модели, работающей за кулисами.Это не только обеспечивает более сложные запросы, но и может дать более точные ответы.
Например, запрос в Gensql может быть чем -то вроде: «Насколько вероятно, что разработчик из Сиэтла знает язык программирования ржавчины?»Просто рассмотрение корреляции между столбцами в базе данных может пропустить тонкие зависимости.Включение вероятностной модели может захватывать более сложные взаимодействия.
Кроме того, вероятностные модели, использующие Gensql, являются проверенными, поэтому люди могут видеть, какие данные используют модель для принятия решений.Кроме того, эти модели обеспечивают показатели калиброванной неопределенности наряду с каждым ответом.
Например, с этой калиброванной неопределенностью, если кто -то запрашивает модель для прогнозируемых результатов различных методов лечения рака для пациента из группы меньшинств, которая недопредставлена в наборе данных, Gensql сказал бы пользователю, что это неопределенное и насколько это неопределенно,вместо того, чтобы чрезмерно выступать за неправильное лечение.
Чтобы оценить gensql, исследователи сравнивали свою систему с популярными базовыми методами, которые используют нейронные сети.Gensql был в 1,7 и 6,8 раза быстрее, чем эти подходы, выполняя большинство запросов за несколько миллисекунд, обеспечивая более точные результаты.
Они также применили GensQL в двух тематических исследованиях: одно, в котором система идентифицировала недостаточно меченные данные клинических испытаний, а другой, в котором она генерировала точные синтетические данные, которые захватывали сложные отношения в геномике.
Затем исследователи хотят более широко применять GensQL для проведения крупного моделирования населения человека.С Gensql они могут генерировать синтетические данные, чтобы сделать выводы о таких вещах, как здоровье и зарплата, одновременно контролируя, какую информацию используется в анализе.
Они также хотят сделать Gensql проще в использовании и более мощным, добавив в систему новые оптимизации и автоматизацию.В долгосрочной перспективе исследователи хотят позволить пользователям задавать запросы естественного языка в Gensql.Их цель состоит в том, чтобы в конечном итоге разработать эксперта по ИИ, похожим на ЧАТГПТ, можно было бы поговорить о любой базе данных, которая обосновывает свои ответы, используя запросы gensql.
More information: Mathieu Huot et al, GenSQL: A Probabilistic Programming System for Querying Generative Models of Database Tables, Proceedings of the ACM on Programming Languages (2024). DOI: 10.1145/3656409
Эта история переиздана любезно предоставлена MIT News (web.mit.edu/newsoffice/), популярный сайт, который охватывает новости о исследованиях, инновациях и преподавании MIT.
Нашли ошибку в тексте? Напишите нам.