Новый алгоритм обнаружения аномалий в данных превосходит текущее программное обеспечение
Обнаружение аномалий создает несколько проблем, которые не рассматриваются в традиционных проблемах ИИ.Кредит: Тревор Ванной на Unsplash
Алгоритм, разработанный исследователями Университета штата Вашингтон, может лучше найти аномалии данных, чем текущее программное обеспечение для обнаружения аномалий, в том числе в потоковых данных.
Работа, сообщаемая в журнале исследований искусственного интеллекта, вносит фундаментальный вклад в методы искусственного интеллекта (ИИ), которые могут иметь приложения во многих областях, которые необходимо быстро найти аномалии в больших объемах данных, таких как в области кибербезопасности, управление энергетикой, сетки, управление энергетикой, сетка,Дезинформация и медицинская диагностика.
Возможность лучше найти аномалии будет означать возможность более легко обнаружить мошенничество, заболевание в медицинской обстановке или важную необычную информацию, такую как астероид, сигналы которых перекрываются со светом от других звезд.
«Эта работа представляет достижения в отношении того, как ИИ и люди могут работать вместе, чтобы синергетически решить проблемы с открытием аномалии»,-сказала Яна Доппа, Хуи-Роджерс, председательную доцент кафедры компьютерной науки, которая контролировала работу.
«Со всей этой генеративной технологией ИИ есть так много данных, которые включают дезинформацию, и если вы хотите, чтобы люди проходили все это, это невозможно, так как это огромно. Если у вас есть конечные человеческие ресурсы, и вы хотите обнаружить что -то вроде дезинформации.Быстро, вам нужны алгоритмы, которые определяют приоритеты, какие элементы должны быть помечены ».
Обнаружение аномалий создает несколько проблем, которые не рассматриваются в традиционных проблемах ИИ.Количество аномалий очень мало по сравнению с нормальными данными - типично менее 2%.Кроме того, не может быть большой разницы между аномалией и нормальными данными.
«Итак, это похоже на поиск игл в большой проблеме сена», - сказал Доппа.«И вы даже не знаете во многих областях, какие иглы искать».
Другая проблема заключается в том, что с большими объемами данных ИИ часто найдет слишком много аномалий -кандидатов, чтобы пройти для людей, чтобы проверить.
«Всякий раз, когда у вас есть эти ложные позитивы, вы тратите много времени людей, которое мы хотим свести к минимуму», - сказал постдокторский исследователь и ведущий автор Шубхомой Дас.«Как мы можем использовать минимальную обратную связь от человека для адаптации детектора аномалий, чтобы ложные срабатывания со временем снижались, и мы обнаруживаем все больше и больше разнообразных аномалий?»
В рамках работы исследователи предоставили новые теоретические и эмпирические результаты того, почему ансамбль компьютерных моделей хорошо работал для обнаружения аномалии.Они обнаружили, что с небольшим количеством пошаговой обратной связи алгоритм ИИ может учиться намного лучше и обнаружить гораздо больше разнообразных аномалий по сравнению с системой, где не было никаких обратной связи.Человек нуждается в объяснении аномалий -кандидатов, чтобы понять, почему ИИ выбрал их для маркировки.
«Некоторое представление о интерпретации или объяснениях важно», - сказал доктор философии.Студент и соавтор Ракибул Ислам.«Мы поняли, что в существующей литературе в значительной степени не хватало».
Исследователи использовали свои новые результаты для разработки алгоритма, который рассматривает аномалии в партиях, что улучшила способность обнаруживать различные типы аномалий.Таким образом, в случае аномальных данных кредитных карт алгоритм обнаруживает различные типы необычного поведения, такие как странно дорогие покупки человека и/или те, которые сделаны в нечетном месте.
В отличие от современных моделей ИИ, алгоритм, разработанный исследователями, смог обрабатывать потоковые данные, что распространено во многих реальных приложениях.Их алгоритм может обнаружить и количественно определять дрейф в распределении данных, а затем принять корректирующие действия.
«Проблема обнаружения аномалий, когда данные появляются в потоке, была менее изучена», - сказал Доппа.
Код и данные исследователей общедоступны, и теперь они планируют развернуть свои алгоритмы в реальных системах для измерения их точности и удобства использования.
More information: Shubhomoy Das et al, Effectiveness of Tree-based Ensembles for Anomaly Discovery: Insights, Batch and Streaming Active Learning, Journal of Artificial Intelligence Research (2024). DOI: 10.1613/jair.1.14741
Нашли ошибку в тексте? Напишите нам.