Оценщик Тейла – Сена - Theil–Sen estimator

Оценка Тейла – Сена для набора точек выборки с выбросами (черная линия) по сравнению с ненадежной обычной линией наименьших квадратов для того же набора (синяя). Пунктирная зеленая линия представляет собой основную истину, из которой были созданы образцы.

В непараметрических статистических данных , то оценка Тейлей-Сен представляет собой способ робастно аппроксимации линии с точками выборки в плоскости ( простая линейная регрессия ), выбирая медиану из трасс всех линий через пару точек. Он также называется крутизна оценщиком Сена , выбор склона , то единственный медианный метод , то линейный метод подходит Kendall прочного и надежная линия Kendall-Тейл . Он назван в честь Анри Тейла и Пранаба К. Сена , опубликовавших статьи по этому методу в 1950 и 1968 годах соответственно, и в честь Мориса Кендалла из-за его связи с коэффициентом ранговой корреляции Кендалла тау .

Эта оценка может быть вычислена эффективно и нечувствительна к выбросам . Он может быть значительно более точным, чем ненадежная простая линейная регрессия (наименьшие квадраты) для искаженных и гетероскедастичных данных, и хорошо конкурирует с методом наименьших квадратов даже для нормально распределенных данных с точки зрения статистической мощности . Его назвали «самым популярным непараметрическим методом оценки линейного тренда».

Определение

Как определено Тейлом (1950) , оценка Тейла – Сена для набора двумерных точек ( x i , y i ) - это медиана m наклонов ( y j - y i ) / ( x j - x i ) определяется по всем парам точек выборки. Сен (1968) расширил это определение на случай, когда две точки данных имеют одинаковую координату x . В определении Сена берется медиана уклонов, определенных только для пар точек, имеющих различные координаты x .

Как только наклон m был определен, можно определить линию из точек выборки, установив y- интервал b как медиану значений y i - mx i . Тогда аппроксимирующей линией будет линия y = mx + b с коэффициентами m и b в форме наклон-пересечение . Как заметил Сен, этот выбор наклона приводит к тому, что коэффициент ранговой корреляции тау Кендалла становится приблизительно нулевым, когда он используется для сравнения значений x i с соответствующими остатками y i - mx i - b . Интуитивно это предполагает, что расстояние, на которое линия соответствия проходит выше или ниже точки данных, не коррелирует с тем, находится эта точка слева или справа от набора данных. Выбор b не влияет на коэффициент Кендалла, но приводит к тому, что медианная невязка становится приблизительно равной нулю; то есть линия соответствия проходит выше и ниже равного количества точек.

Доверительный интервал для оценки наклона может быть определен как интервал , содержащего средний 95% склонов линий , определяемых парами точек и может быть быстро оценен путем отбора проб пары точек и определения 95% интервала выборки трасс. Согласно моделированию, приблизительно 600 пар образцов достаточно для определения точного доверительного интервала.

Вариации

Разновидность оценки Тейль-Sen, то повторяется медианные регрессии из Siegel (1982) , определяет для каждой точки образца ( х я , у я ) , медиана м я склоны ( у J - у я ) / ( х J - x i ) линий, проходящих через эту точку, а затем определяет общую оценку как медиану этих медиан. Он может допускать большее количество выбросов, чем оценка Тейла – Сена, но известные алгоритмы для его эффективного вычисления более сложны и менее практичны.

Другой вариант объединяет точки выборки по рангу их координат x : точка с наименьшей координатой соединяется с первой точкой над медианной координатой, вторая наименьшая точка соединяется со следующей точкой выше медианы, и поэтому на. Затем он вычисляет медиану наклонов линий, определенных этими парами точек, набирая скорость, исследуя значительно меньшее количество пар, чем оценка Тейла – Сена.

Варианты оценки Тейла – Сена, основанные на взвешенных медианах , также были изучены на основе принципа, согласно которому пары выборок, координаты x которых отличаются более сильно, с большей вероятностью будут иметь точный наклон и, следовательно, должны получить более высокий вес.

Для сезонных данных может быть целесообразно сгладить сезонные колебания данных, рассматривая только пары точек выборки, которые принадлежат одному и тому же месяцу или одному сезону года, и находя медианное значение наклонов линий, определяемых это более ограниченный набор пар.

Статистические свойства

Оценка Тейла – Сена - это несмещенная оценка истинного наклона в простой линейной регрессии . Для многих распределений ошибки ответа эта оценка имеет высокую асимптотическую эффективность по сравнению с оценкой методом наименьших квадратов . Оценщикам с низкой эффективностью требуется больше независимых наблюдений, чтобы получить такую ​​же выборочную дисперсию эффективных несмещенных оценщиков.

Оценка Тейла – Сена более надежна, чем оценка методом наименьших квадратов, поскольку она гораздо менее чувствительна к выбросам . Он имеет точку пробоя по

Это означает, что он может допускать произвольное искажение до 29,3% точек входных данных без ухудшения его точности. Однако точка срыва уменьшается для многомерных обобщений метода. Более высокая точка разбивки, 50%, имеет место для другого надежного алгоритма подбора линий, повторной медианной оценки Зигеля.

Оценщик Тейла – Сена эквивариантен при каждом линейном преобразовании его переменной отклика, что означает, что сначала преобразование данных, а затем подгонка к линии или сперва подгонка к линии, а затем ее преобразование таким же образом, дают один и тот же результат. Однако он не эквивариантен при аффинных преобразованиях переменных предиктора и отклика.

Алгоритмы и реализация

Медианный наклон набора из n точек выборки может быть точно вычислен путем вычисления всех O ( n 2 ) линий через пары точек и последующего применения алгоритма поиска медианы с линейным временем . Альтернативно, это может быть оценено путем выборки пар точек. При проективной двойственности эта проблема эквивалентна проблеме поиска точки пересечения в расположении прямых , у которых есть медианная координата x среди всех таких точек пересечения.

Проблема выполнения выбора уклона точно, но более эффективно, чем алгоритм квадратичного времени методом грубой силы, широко изучалась в вычислительной геометрии . Известно несколько различных методов вычисления оценки Тейла – Сена точно за время O ( n log n ) либо детерминированно, либо с использованием рандомизированных алгоритмов . Повторная медианная оценка Зигеля также может быть построена с той же временной границей. В моделях вычислений, в которых входные координаты являются целыми числами и в которых побитовые операции с целыми числами занимают постоянное время, оценка Тейла – Сена может быть построена еще быстрее за рандомизированное ожидаемое время .

Оценщик наклона с приблизительно средним рангом, имеющий ту же точку разбивки, что и оценщик Тейла – Сена, может поддерживаться в модели потока данных (в которой точки выборки обрабатываются одна за другой с помощью алгоритма, который не имеет достаточно постоянного хранилище для представления всего набора данных) с использованием алгоритма, основанного на ε-сетях .

В статистическом пакете R как оценка Тейла – Сена, так и повторная медианная оценка Зигеля доступны через mblmбиблиотеку. Бесплатное автономное приложение Visual Basic для оценки Тейла – Сена KTRLineбыло предоставлено Геологической службой США . Оценщик Тейла – Сена также был реализован в Python как часть библиотек SciPy и scikit-learn .

Приложения

Оценка Тейла – Сена применялась в астрономии из-за ее способности работать с цензурированными моделями регрессии . В биофизиках , Fernandes & Леблано (2005) предполагает его использование для применения дистанционного зондирования , такие , как оценка листовой поверхности по данным отражательных благодаря своей «простоте вычислений, аналитическим оценки доверительных интервалов, устойчивость к выбросам, проверяемых предположений относительно остатков и. .. ограниченная априорная информация об ошибках измерения ». Для измерения сезонных данных об окружающей среде, таких как качество воды , вариант оценки Тейла – Сена с поправкой на сезонность был предложен как предпочтительный по сравнению с оценкой методом наименьших квадратов из-за его высокой точности при наличии искаженных данных. В информатике метод Тейла – Сена используется для оценки тенденций старения программного обеспечения . В метеорологии и климатологии он используется для оценки долгосрочных тенденций возникновения и скорости ветра.

Смотрите также

Заметки

Рекомендации