Автоматизация курирования данных для предварительного обучения AI
Обзор конвейера курирования данных.Большой пул данных часто демонстрирует длиннохвостовое распределение концепций.Мы применяем иерархические K-средние для получения кластеров, которые равномерно распространяются по понятиям.Точки данных затем отображаются из кластеров, чтобы сформировать курированный набор данных, который имеет лучший баланс концепций.Кредит: Arxiv (2024).Doi: 10.48550/arxiv.2405.15613
Команда компьютерных ученых и исследователей искусственного интеллекта из Fair at Meta, Inria, Université Paris Saclay и Google разработала возможные средства для автоматизации курирования данных для самоотверженного предварительного обучения наборов данных AI.
Группа написала статью, описывающую их процесс разработки, методику, которую они разработали, и насколько хорошо она работала до сих пор во время тестирования.Он размещен на сервере Arxiv Preprint.
Поскольку разработчики и пользователи изучали в течение прошлого года, качество данных, которые используются для обучения систем ИИ, очень тесно связано с точностью результатов.В настоящее время наилучшие результаты получены с помощью систем, которые используют кураторские данные вручную, а худшие получены из рассеянных систем.
К сожалению, вручную куратор данных занимает много времени и усилий.Поэтому компьютерные ученые искали способы автоматизировать процесс.В этом новом исследовании исследовательская группа разработала технику, которая делает именно это, и которая делает это таким образом, которое находится наравне с ручным курированием.
Новый метод начинается с большого набора данных, а затем проводит трехэтапный процесс, который приводит к данным, которые являются более разнообразными и более сбалансированными.
Первый шаг включает в себя использование модели экспрессии функций, которая вычисляет высококачественные места для встраивания точек данных.В своем подходе встроенные вещи - это цифры, которые представляют функции различных типов данных, таких как текст, аудио или изображения.
Второй шаг включает использование последовательной кластеризации K-средних, где точки данных назначаются группе на основе их сходства с другими точками данных.
Третий шаг включает использование многоэтапной иерархической кластеризации K-средних, чтобы гарантировать, что кластеры данных сбалансированы.Это достигается с помощью строительных деревьев кластеров данных снизу вверх.
Исследовательская группа проверила свою технику с использованием моделей зрения, которые были обучены различным типам наборов данных.Они обнаружили, что модели, использующие их методику, превзошли тех, кто использовал не раскрытые данные, и были такими же хорошими, как или иногда лучше, чем модели, обученные данным, которые были курированы вручную.
Необходимо провести дополнительное тестирование, чтобы выяснить, насколько хорошо работает их метод на реальных данных и различных видах систем искусственного интеллекта.
More information: Huy V. Vo et al, Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach, arXiv (2024). DOI: 10.48550/arxiv.2405.15613
Нашли ошибку в тексте? Напишите нам.