3 мин. чтения
6/4/2024 10:47:42 AM

Автоматизация курирования данных для предварительного обучения AI

Article Preview Image Обзор конвейера курирования данных.Большой пул данных часто демонстрирует длиннохвостовое распределение концепций.Мы применяем иерархические K-средние для получения кластеров, которые равномерно распространяются по понятиям.Точки данных затем отображаются из кластеров, чтобы сформировать курированный набор данных, который имеет лучший баланс концепций.Кредит: Arxiv (2024).Doi: 10.48550/arxiv.2405.15613

Команда компьютерных ученых и исследователей искусственного интеллекта из Fair at Meta, Inria, Université Paris Saclay и Google разработала возможные средства для автоматизации курирования данных для самоотверженного предварительного обучения наборов данных AI.

Группа написала статью, описывающую их процесс разработки, методику, которую они разработали, и насколько хорошо она работала до сих пор во время тестирования.Он размещен на сервере Arxiv Preprint.

Поскольку разработчики и пользователи изучали в течение прошлого года, качество данных, которые используются для обучения систем ИИ, очень тесно связано с точностью результатов.В настоящее время наилучшие результаты получены с помощью систем, которые используют кураторские данные вручную, а худшие получены из рассеянных систем.

К сожалению, вручную куратор данных занимает много времени и усилий.Поэтому компьютерные ученые искали способы автоматизировать процесс.В этом новом исследовании исследовательская группа разработала технику, которая делает именно это, и которая делает это таким образом, которое находится наравне с ручным курированием.

Новый метод начинается с большого набора данных, а затем проводит трехэтапный процесс, который приводит к данным, которые являются более разнообразными и более сбалансированными.

Первый шаг включает в себя использование модели экспрессии функций, которая вычисляет высококачественные места для встраивания точек данных.В своем подходе встроенные вещи - это цифры, которые представляют функции различных типов данных, таких как текст, аудио или изображения.

Второй шаг включает использование последовательной кластеризации K-средних, где точки данных назначаются группе на основе их сходства с другими точками данных.

Третий шаг включает использование многоэтапной иерархической кластеризации K-средних, чтобы гарантировать, что кластеры данных сбалансированы.Это достигается с помощью строительных деревьев кластеров данных снизу вверх.

Исследовательская группа проверила свою технику с использованием моделей зрения, которые были обучены различным типам наборов данных.Они обнаружили, что модели, использующие их методику, превзошли тех, кто использовал не раскрытые данные, и были такими же хорошими, как или иногда лучше, чем модели, обученные данным, которые были курированы вручную.

Необходимо провести дополнительное тестирование, чтобы выяснить, насколько хорошо работает их метод на реальных данных и различных видах систем искусственного интеллекта.

More information: Huy V. Vo et al, Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach, arXiv (2024). DOI: 10.48550/arxiv.2405.15613

Получи бесплатную еженедельную рассылку со ссылками на репозитории и лонгриды самых интересных историй о стартапах 🚀, AI технологиях 👩‍💻 и программировании 💻!
Присоединяйся к тысячам читателей для получения одного еженедельного письма

Подписывайся на нас:

Нашли ошибку в тексте? Напишите нам.

Добавляй ЛРНЧ в свою ленту Google Новостей.
Читайте далее 📖

Ученые считают, что ChatGPT неточен при ответе на вопросы программирования

5/28/2024 · 3 мин. чтения

Ученые считают, что ChatGPT неточен при ответе на вопросы программирования

Meta представляет Chameleon, мультимодальную модель раннего слияния

5/23/2024 · 3 мин. чтения

Meta представляет Chameleon, мультимодальную модель раннего слияния