Выброс - Outlier

Рис. 1. Ящичный график данных эксперимента Майкельсона – Морли, показывающий четыре выброса в среднем столбце, а также один выброс в первом столбце.

В статистике , останец является данные указывают , что существенно отличается от других наблюдений. Выброс может быть из-за изменчивости измерения или может указывать на экспериментальную ошибку; последние иногда исключаются из набора данных . Выброс может вызвать серьезные проблемы при статистическом анализе.

Выбросы могут возникать случайно в любом распределении, но они часто указывают либо на ошибку измерения, либо на то, что популяция имеет распределение с « тяжелым хвостом» . В первом случае их нужно отбросить или использовать статистику, устойчивую к выбросам, тогда как во втором случае они указывают на то, что распределение имеет высокую асимметрию и что следует быть очень осторожными при использовании инструментов или интуиции, предполагающих нормальное распределение . Частой причиной выбросов является смесь двух распределений, которые могут быть двумя отдельными подгруппами или могут указывать на «правильное испытание» или «ошибку измерения»; это моделируется смешанной моделью .

В большинстве больших выборок данных некоторые точки данных будут дальше от среднего значения выборки, чем это считается разумным. Это может быть из-за случайной систематической ошибки или недостатков теории, которая породила предполагаемое семейство вероятностных распределений , или может быть, что некоторые наблюдения далеки от центра данных. Таким образом, выбросы могут указывать на ошибочные данные, ошибочные процедуры или области, в которых определенная теория может быть неверной. Однако в больших выборках следует ожидать небольшого количества выбросов (и не из-за каких-либо аномальных условий).

Выбросы, являющиеся наиболее экстремальными наблюдениями, могут включать в себя максимум или минимум выборки , или и то, и другое, в зависимости от того, являются ли они чрезвычайно высокими или низкими. Однако максимум и минимум выборки не всегда являются выбросами, потому что они не могут быть необычно далекими от других наблюдений.

Наивная интерпретация статистики, полученной из наборов данных, которые включают выбросы, может вводить в заблуждение. Например, если вычисляется средняя температура 10 объектов в комнате, и девять из них находятся в диапазоне от 20 до 25 градусов Цельсия , но духовка имеет температуру 175 ° C, медиана данных будет между 20 и 25 ° C. C, но средняя температура будет от 35,5 до 40 ° C. В этом случае медиана лучше отражает температуру объекта, отобранного случайным образом (но не температуру в комнате), чем среднее значение; наивная интерпретация среднего как «типичный образец», эквивалент медианы, неверна. Как показано в этом случае, выбросы могут указывать на точки данных, которые принадлежат другой совокупности, чем остальная часть набора выборки .

Оценщики, способные справляться с выбросами, считаются надежными: медиана является надежной статистикой центральной тенденции , а среднее - нет. Однако среднее значение обычно является более точной оценкой.

Возникновение и причины

Относительные вероятности в нормальном распределении

В случае нормально распределенных данных правило трех сигм означает, что примерно 1 из 22 наблюдений будет отличаться от среднего вдвое или более на стандартное отклонение , а 1 из 370 будет отклоняться в три раза на стандартное отклонение. В выборке из 1000 наблюдений присутствие до пяти наблюдений, отклоняющихся от среднего значения более чем на три стандартных отклонения, находится в пределах ожидаемого диапазона, меньше чем в два раза ожидаемого числа и, следовательно, в пределах одного стандартного отклонения от среднего значения. ожидаемое число - см. распределение Пуассона - и не указывает на аномалию. Однако, если размер выборки составляет всего 100, только три таких выброса уже являются поводом для беспокойства, что более чем в 11 раз превышает ожидаемое число.

В общем, если характер распределения населения , как известно априори , то можно проверить , если количество выбросов отклоняются значительно от того, что можно ожидать: для данного среза (так образцы выходят за отсечкой с вероятностью р ) от а Для данного распределения количество выбросов будет следовать биномиальному распределению с параметром p , которое, как правило, может быть хорошо аппроксимировано распределением Пуассона с λ = pn . Таким образом, если взять нормальное распределение с отсечкой 3 стандартных отклонения от среднего, p составляет примерно 0,3%, и, таким образом, для 1000 испытаний можно приблизить количество выборок, отклонение которых превышает 3 сигма, распределением Пуассона с λ = 3.

Причины

Выбросы могут иметь множество аномальных причин. Физическое устройство для проведения измерений могло иметь временную неисправность. Возможно, произошла ошибка при передаче или транскрипции данных. Выбросы возникают из-за изменений в поведении системы, мошенничества, человеческой ошибки, ошибки прибора или просто из-за естественных отклонений в популяциях. Образец мог быть загрязнен элементами, не относящимися к исследуемой популяции. В качестве альтернативы, выброс может быть результатом ошибки в предполагаемой теории, требующей дальнейшего исследования исследователем. Кроме того, патологический вид выбросов определенной формы появляется в различных наборах данных, указывая на то, что причинный механизм для данных может отличаться в крайних точках ( эффект Кинга ).

Определения и обнаружение

Не существует строгого математического определения того, что является выбросом; Определение того, является ли наблюдение выбросом, в конечном итоге является субъективным делом. Существуют различные методы обнаружения выбросов. Некоторые из них являются графическими, например, графики нормальной вероятности . Другие основаны на моделях. Коробчатые участки - это гибрид.

Методы на основе моделей, которые обычно используются для идентификации, предполагают, что данные получены из нормального распределения, и выявляют наблюдения, которые считаются «маловероятными» на основе среднего значения и стандартного отклонения:

Критерий Пирса

Предлагается определить в серии наблюдений предел ошибки, за пределами которого все наблюдения, содержащие такую ​​большую ошибку, могут быть отклонены, при условии, что таких наблюдений столько же . Принцип, на основе которого предлагается решить эту проблему, состоит в том, что предлагаемые наблюдения должны быть отклонены, когда вероятность системы ошибок, полученная путем их сохранения, меньше, чем вероятность системы ошибок, полученная путем их отклонения, умноженная на вероятность делать так много и не более аномальных наблюдений. (Цитируется в редакционной заметке на странице 516 Пирсу (издание 1982 г.) из A Manual of Astronomy 2: 558 Шовене.)

Заборы Тьюки

Другие методы отмечают наблюдения, основанные на таких показателях, как межквартильный размах . Например, если и являются нижним и верхним квартилями соответственно, то можно определить выброс как любое наблюдение за пределами диапазона:

для некоторой неотрицательной константы . Джон Тьюки предложил этот тест, где указывает «выброс», а данные - «далеко за пределами».

При обнаружении аномалий

В различных областях, таких как, помимо прочего, статистика , обработка сигналов , финансы , эконометрика , производство , создание сетей и интеллектуальный анализ данных , задача обнаружения аномалий может принимать другие подходы. Некоторые из них могут быть основаны на расстоянии и плотности, например, на локальном выбросе (LOF). Некоторые подходы могут использовать расстояние до k-ближайших соседей, чтобы пометить наблюдения как выбросы или не выбросы.

Модифицированный тест Томпсона Тау

Модифицированный тест Томпсона Тау - это метод, используемый для определения наличия выброса в наборе данных. Сила этого метода заключается в том, что он учитывает стандартное отклонение набора данных, среднее значение и обеспечивает статистически определенную зону отклонения; тем самым предоставляя объективный метод определения того, является ли точка данных выбросом. Как это работает: сначала определяется среднее значение набора данных. Затем определяется абсолютное отклонение между каждой точкой данных и средним значением. В-третьих, определяется область отклонения по формуле:

;

где - критическое значение из t- распределения Стьюдента с n -2 степенями свободы, n - размер выборки, а s - стандартное отклонение выборки. Чтобы определить, является ли значение выбросом: Рассчитайте . Если δ > Rejection Region, точка данных является выбросом. Если δ ≤ Rejection Region, точка данных не является выбросом.

Модифицированный тест Томпсона Тау используется для обнаружения одного выброса за раз (наибольшее значение δ удаляется, если оно является выбросом). Это означает, что если обнаруживается, что точка данных является выбросом, она удаляется из набора данных, и тест применяется снова с новым средним значением и областью отклонения. Этот процесс продолжается до тех пор, пока в наборе данных не останутся выбросы.

В некоторых работах также исследовались выбросы номинальных (или категориальных) данных. В контексте набора примеров (или экземпляров) в наборе данных жесткость экземпляра измеряет вероятность того, что экземпляр будет неправильно классифицирован ( где y - присвоенная метка класса, а x - значение входного атрибута для экземпляра в обучающем наборе. т ). В идеале твердость экземпляра должна быть рассчитана путем суммирования по набору всех возможных гипотез H :

На практике эта формулировка неосуществима, поскольку H потенциально бесконечно, и вычисления неизвестны для многих алгоритмов. Таким образом, твердость экземпляра может быть приблизительно определена с использованием разнообразного подмножества :

где - гипотеза, вызванная алгоритмом обучения, обученным на обучающей выборке t с гиперпараметрами . Жесткость экземпляра обеспечивает непрерывное значение для определения того, является ли экземпляр выбросом.

Работа с выбросами

Выбор того, как поступить с выбросом, должен зависеть от причины. Некоторые оценщики очень чувствительны к выбросам, особенно к оценке ковариационных матриц .

Удержание

Даже когда модель нормального распределения подходит для анализируемых данных, выбросы ожидаются для больших размеров выборки и не должны автоматически отбрасываться, если это так. Приложение должно использовать алгоритм классификации, устойчивый к выбросам, для моделирования данных с естественными выбросами.

Исключение

Удаление резко отклоняющихся данных - спорная практика, которую не одобряют многие ученые и преподаватели; Хотя математические критерии обеспечивают объективный и количественный метод отклонения данных, они не делают практику более обоснованной с научной или методологической точки зрения, особенно в небольших наборах или в тех случаях, когда нельзя предположить нормальное распределение. Отклонение выбросов более приемлемо в тех областях практики, где достоверно известны лежащая в основе модель измеряемого процесса и обычное распределение ошибки измерения. Выбросы, возникающие из-за ошибки показаний прибора, можно исключить, но желательно, чтобы показания были, по крайней мере, проверены.

Два распространенных подхода к исключению выбросов - это усечение (или усечение ) и Winsorising . Обрезка отбрасывает выбросы, тогда как Winsorising заменяет выбросы ближайшими «неподозревающими» данными. Исключение также может быть следствием процесса измерения, например, когда эксперимент не может полностью измерить такие экстремальные значения, что приводит к цензуре данных.

В задачах регрессии альтернативный подход может заключаться в исключении только тех точек, которые демонстрируют большую степень влияния на оцененные коэффициенты, с использованием такой меры, как расстояние Кука .

Если точка данных (или точки) исключена из анализа данных , это должно быть четко указано в любом последующем отчете.

Ненормальные распределения

Следует учитывать возможность того, что основное распределение данных не является приблизительно нормальным и имеет « толстые хвосты ». Например, при выборке из распределения Коши дисперсия выборки увеличивается с размером выборки, среднее значение выборки не может сходиться по мере увеличения размера выборки, и выбросы ожидаются с гораздо большей скоростью, чем для нормального распределения. Даже небольшая разница в толщине хвостов может иметь большое значение в ожидаемом количестве экстремальных значений.

Неопределенности членства в множестве

Подход к набору принадлежности предполагает, что неопределенность, соответствующая i- му измерению неизвестного случайного вектора x , представлена ​​набором X i (вместо функции плотности вероятности). Если выбросов нет, x должен принадлежать пересечению всех X i . Когда возникают выбросы, это пересечение может быть пустым, и мы должны ослабить небольшое количество множеств X i (как можно меньше), чтобы избежать любой несогласованности. Это может быть сделано с помощью понятия д - расслаблены пересечения . Как показано на рисунке, пересечение с q- ослаблением соответствует множеству всех x, которые принадлежат всем множествам, кроме q из них. Множества X i, которые не пересекают пересечение с ослаблением q, можно заподозрить как выбросы.

Рис. 5. q -релаксированное пересечение 6 множеств для q = 2 (красный), q = 3 (зеленый), q = 4 (синий), q = 5 (желтый).

Альтернативные модели

В случаях, когда причина выбросов известна, можно включить этот эффект в структуру модели, например, используя иерархическую байесовскую модель или смешанную модель .

Смотрите также

использованная литература

внешние ссылки