Влиятельное наблюдение - Influential observation

В квартете Анскомба два набора данных внизу содержат важные моменты. Все четыре набора идентичны при рассмотрении с использованием простой сводной статистики, но значительно различаются при отображении на графике. Если убрать одну точку, линия будет выглядеть совсем иначе.

В статистике , влиятельная наблюдение представляет собой наблюдение за статистический расчет которого исключение из набора данных будет заметно изменить результат расчета. В частности, в регрессионном анализе важным является наблюдение, удаление которого сильно влияет на оценки параметров.

Оценка

Были предложены различные методы измерения влияния. Предположим, что оцениваемая регрессия , где - вектор-столбец n × 1 для переменной ответа, - это матрица плана n × k независимых переменных (включая константу), является остаточным вектором n × 1 и является вектором k × 1 оценки некоторого параметра популяции . Кроме того, определить , на матрицу проекции из . Тогда у нас есть следующие меры влияния:

  1. , Где обозначают коэффициенты оцененных с я -й строкой из удалено, означает я ая строку . Таким образом, DFBETA измеряет разницу в оценке каждого параметра с учетом и без точки влияния. Существует DFBETA для каждой переменной и каждого наблюдения (если есть N наблюдений и k переменных, то N · k DFBETA). В таблице показаны DFBETA для третьего набора данных из квартета Анскомба (нижний левый график на рисунке):
Икс y перехватить склон
10.0 7,46 -0,005 -0,044
8.0 6,77 -0,037 0,019
13.0 12,74 -357,910 525,268
9.0 7,11 -0,033 0
11.0 7,81 0,049 -0,117
14.0 8,84 0,490 -0,667
6.0 6,08 0,027 -0,021
4.0 5,39 0,241 -0,209
12.0 8,15 0,137 -0,231
7.0 6,42 -0,020 0,013
5.0 5,73 0,105 -0,087
  1. DFFITS - разница в посадках
  2. D Кука измеряет эффект удаления точки данных на все параметры вместе взятые.

Выбросы, рычаги воздействия и влияние

Отклоняющихся значений может быть определен как данные указывают , что существенно отличается от других наблюдений. Высокая точка-рычаги являются наблюдения , сделанные при экстремальных значениях независимых переменных. Оба типа нетипичных наблюдений заставят линию регрессии приблизиться к точке. В квартете Анскомба на нижнем правом изображении есть точка с большим рычагом, а на нижнем левом изображении - удаленная точка.

Смотрите также

Рекомендации

дальнейшее чтение