15 алгоритмов выявления аномалий



В предыдущей статье мы говорили о прогнозировании временных рядов.

Логичное продолжение темы - детекция аномалий.

Применение

Выявление аномалий применяется в :

1) Предсказание поломок промышленного оборудования

Так, в 2010 году Иранские центрифуги были атакованы вирусом Stuxnet, который задал аварйный режим работы оборудования и вывел из строя часть оборудования за счет ускоренного износа.

Если бы на оборудовании использовались алгоритмы поиска аномалий, ситуацию выхода из строя можно было избежать.

Поиск аномалий в работе оборудования используется помимо атомной промышленности, в металлургии, и работе авиационных турбин, нефтяных насосах, промышленных вентиляторах. И в других областях, где использование предиктивной диагностики дешевле возможных потерь при непрогнозируемой поломке.

2) Выявление мошеннических действий

Если с карты, которой вы пользуетесь в Подольске снимают деньги в Нигерии, возможно, транзакции следует заблокировать.

3) Выявление аномальных потребительских паттернов

Если пользователи демонстрирует аномальное поведение, возможно, есть проблема о которой вы не знаете.

4) Выявление аномального спроса и нагрузки

Если продажи в магазине FMCG понизились ниже границы доверительного интервала прогноза, стоит найти причину происходящего.

Подходы к выявлению аномалий

1) Метода опорных векторов с одним классом One-Class SVM

Используется, когда в обучающем наборе данные подчиняются распределению Гаусса, а в тестовом содержат аномалии.

Одноклассовый метод опорных векторов строит нелинейную поверхность вокруг начала координат. Возможно задать границу отсечения, какие данные считать аномальными.
Подпишись на рассылку новостей о AI
Только полезные материалы о машинном обучении и искусственном интеллекте. Мы уважительно относимся к нашим читателям и рассылаем письма не чаше 1 раза в неделю!

2) Метод изолирующего леса – Isolate forest

При «случайном» способе построения деревьев выбросы будут попадать в листья на ранних этапах (на небольшой глубине дерева), т.е. выбросы проще «изолировать». Выделение аномальных значений происходит на первых итерациях работы алгоритма Isolate forest.

3) Elliptic envelope и статистические методы

Elliptic envelope применяется, когда данные нормально распределены. Чем ближе измерение к хвосту смеси распределений, тем более аномально значение.

К данному классу относятся и другие статистические методы.

4-6) Метрические методы

К методам относятся такие алгоритмы как k ближайших соседей, k-го ближайшего соседа, ABOD (angle-based outlier detection) или LOF (local outlier factor).

Подходят, если расстояние между значениями в признаках равнозначны либо нормированы (чтобы не измерять удава в попугаях).

Алгоритм k ближайших соседей предполагает, что нормальные значения расположены в заданной области многомерного пространства, и дистанция до аномалий будет больше, чем до разделяющей гиперплоскости.
7) Кластерные методы

Суть кластерных методов заключается в том, что если значение удалено от центров кластеров более чем на определенную величину, значение можно считать аномальным.

Главное, использовать алгоритм, правильно кластеризующие данные, что зависит от конкретной задачи.

8) Метода главных компонент

Подходит, где выделяются направления наибольшего изменения дисперсии.

9) Алгоритмы на основе прогнозирования временных рядов

Идея заключается в том, что если значение выбивается из доверительного интервала предсказания, значение считается аномальным. Для предсказания временного ряда используются такие алгоритмы, как тройное сглаживание, S(ARIMA), бустинг и т.д.

Про алгоритмы прогнозирования временного ряда говорилось в предыдущей статье.
10-14) Обучение с учителем (регрессия, классификация)

Если данные позволяют, используем алгоритмы начиная от линейной регрессии и заканчивая рекуррентными сетями. Замерим разницу между предсказанием и фактическим значением, и сделаем вывод, насколько данные выбиваются из нормы. Важно чтобы алгоритм обладал достаточной обобщающей способностью, и обучающая выборка не содержала аномальных значений.

15) Модельные тесты

Подойдем к задаче поиска аномалий, как к задачи поиска рекомендаций. Разложим нашу матрицу признаков с помощью SVD или факторизационных машин, и значения в новой матрице существенно отличающиеся от исходных примем аномальными..
Заключение

В статье рассмотены основные подходы к обнаружению аномалий.

Исходя из опыта команды DATA4, поиск аномалий во многом, можно назвать искусством. Нет идеального алгоритма, или подхода, применение которого решает все задачи. Чаще, используется комплекс методов для решения конкретного кейса. Поиск аномалий осуществляется с помощью одноклассового метода опорных векторов, изолирующего леса, метрических и кластерных методов, а также с использованием главных компонент и прогнозирования временных рядов.

DATA4 объявляет грантовый конкурс

Получите до 50000 руб. на услуги DATA4, заполнив заявку на сайте
http://data4.ru/grant

Польза гранта:
1) Поможем правильно поставить задачи
2) Поможем с выбором технологического стека
3) Разработка MVP

Мы верим, что лучшее сотрудничество начинается с помощи партнерам!.

DATA4

Сделаем будущее настоящим!
Связаться с нами
Напишите контактные данные, чтобы мы связались с вами.