p -значение - p-value

В нулевой проверке гипотез , то р -значение вероятность получения результатов испытаний , по крайней мере , как крайние , как результаты действительно наблюдаются , в предположении , что нулевая гипотеза верна. Очень маленькое значение p означает, что такой экстремальный наблюдаемый результат был бы очень маловероятным при нулевой гипотезе. Представление p- значений статистических тестов - обычная практика в академических публикациях многих количественных областей. Поскольку точное значение p -значения трудно понять, злоупотребление широко распространено и является основной темой в метанауке .

Базовые концепты

В статистике каждая гипотеза относительно неизвестного распределения вероятностей набора случайных величин, представляющих наблюдаемые данные в каком-либо исследовании, называется статистической гипотезой . Если мы сформулируем только одну гипотезу и цель статистической проверки состоит в том, чтобы увидеть, является ли эта гипотеза разумной, но не исследовать другие конкретные гипотезы, то такой тест называется проверкой нулевой гипотезы .

Поскольку наша статистическая гипотеза по определению устанавливает какое-то свойство распределения, нулевая гипотеза является гипотезой по умолчанию, при которой это свойство не существует. Нулевая гипотеза обычно состоит в том, что какой-либо параметр (например, корреляция или разница между средними) в интересующей совокупности равен нулю. Обратите внимание, что наша гипотеза может точно определять распределение вероятностей или только указывать, что оно принадлежит какому-то классу распределений. Часто мы сводим данные к единой числовой статистике, например, чье предельное распределение вероятностей тесно связано с основным вопросом, представляющим интерес в исследовании.

Значение p используется в контексте проверки нулевой гипотезы для количественной оценки статистической значимости результата, который является наблюдаемым значением выбранной статистики . Чем ниже значение p , тем ниже вероятность получения этого результата, если нулевая гипотеза верна. Результат считается статистически значимым, если он позволяет нам отвергнуть нулевую гипотезу. При прочих равных условиях меньшие p-значения считаются более сильным доказательством против нулевой гипотезы.

Грубо говоря, отказ от нулевой гипотезы подразумевает наличие достаточных доказательств против нее.

В качестве конкретного примера, если нулевая гипотеза утверждает, что некоторая сводная статистика следует стандартному нормальному распределению N (0,1), то отклонение этой нулевой гипотезы может означать, что (i) среднее значение не равно 0, или (ii ) дисперсия из не равен 1, или (III) , как правило , не распределен. Различные тесты одной и той же нулевой гипотезы будут более или менее чувствительны к разным альтернативам. Однако даже если нам удастся отвергнуть нулевую гипотезу для всех трех альтернатив, и даже если мы знаем, что распределение является нормальным, а дисперсия равна 1, проверка нулевой гипотезы не сообщает нам, какие ненулевые значения среднего сейчас являются наиболее значительными. правдоподобно. Чем больше независимых наблюдений из одного и того же распределения вероятностей, тем точнее будет тест и тем выше точность, с которой можно будет определить среднее значение и показать, что оно не равно нулю; но это также повысит важность оценки реального или научного значения этого отклонения.

Определение и толкование

Общий

P-значение в тестировании статистической значимости.svg

Рассмотрим наблюдаемую статистику теста из неизвестного распределения . Тогда p -значение - это априорная вероятность наблюдения значения тестовой статистики, по крайней мере, столь же «экстремального», как если бы нулевая гипотеза была верной. То есть:

  • для одностороннего теста правого хвоста,
  • для одностороннего теста с левым хвостом,
  • для двустороннего теста. Если распределение симметрично относительно нуля, то

Если значение p очень мало, то либо нулевая гипотеза неверна, либо произошло что-то маловероятное. В формальном тесте значимости нулевая гипотеза отклоняется, если значение p меньше заранее определенного порогового значения , которое называется альфа-уровнем или уровнем значимости . Значение вместо этого устанавливается исследователем , прежде чем рассматривать данные. определяет пропорцию распределения, которая, как говорят, определяет такой узкий диапазон всех возможных результатов, что, если значение находится в этом диапазоне, его значение вряд ли возникло случайно. Интуитивно это означает, что if установлено в 0,10, только 1/10 распределения определяется , поэтому, если он попадает в этот диапазон, это уже происходит по ряду результатов, которые случаются редко, в 1/10 времени, таким образом, предполагая, что это вряд ли произойдет случайно. По соглашению обычно устанавливается на 0,05, хотя иногда используются более низкие уровни альфа-канала. Тем не менее, важно помнить ряд факторов - такая дисперсия, ошибки измерения, ошибки спецификации, проблемы множественных сравнений и т.д. .-- может означать , что только потому , что находится в пределах диапазона , указанном что это не означает автоматически , удивительное значение из фактически является статистически значимым.

Значение p является функцией выбранной статистики теста и, следовательно, является случайной величиной . Если нулевая гипотеза точно фиксирует распределение вероятностей , и если это распределение является непрерывным, тогда, когда нулевая гипотеза верна, значение p равномерно распределяется между 0 и 1. Таким образом, значение p не фиксировано. Если один и тот же тест повторяется независимо со свежими данными (всегда с одним и тем же распределением вероятностей), на каждой итерации будет получено другое значение p . Если нулевая гипотеза является составной или распределение статистики дискретно, вероятность получения значения p, меньшего или равного любому числу от 0 до 1, меньше или равна этому числу, если нулевая гипотеза правда. Остается в силе, что очень маленькие значения относительно маловероятны, если нулевая гипотеза верна, и что проверка значимости на уровне получается путем отклонения нулевой гипотезы, если уровень значимости меньше или равен .

Различные p-значения, основанные на независимых наборах данных, можно комбинировать, например, используя комбинированный вероятностный тест Фишера .

Распределение

Если нулевая гипотеза верна, если она принимает форму , и случайная величина , лежащая в основе непрерывна, то распределение вероятностей из р -значения является равномерным на интервале [0,1]. Напротив, если альтернативная гипотеза верна, распределение зависит от размера выборки и истинного значения изучаемого параметра.

Распределение p- значений для группы исследований иногда называют p- кривой. Р -кривой может быть использован для оценки надежности научной литературы, например, путем определения смещения публикации или р -hacking .

Для сложной гипотезы

В задачах параметрической проверки гипотез простая или точечная гипотеза относится к гипотезе, в которой предполагается, что значение параметра представляет собой одно число. Напротив, в сложной гипотезе значение параметра задается набором чисел. Например, при проверке нулевой гипотезы о том, что распределение является нормальным со средним значением, меньшим или равным нулю, по сравнению с альтернативой, что среднее значение больше нуля (известная дисперсия), нулевая гипотеза не определяет распределение вероятностей соответствующего теста. статистика. В только что упомянутом примере это будет Z- статистика, принадлежащая одностороннему одностороннему Z- тесту. Для каждого возможного значения теоретического среднего Z- критерий статистики имеет различное распределение вероятностей. В этих обстоятельствах (случай так называемой составной нулевой гипотезы) p -значение определяется путем принятия наименее благоприятного случая нулевой гипотезы, который обычно находится на границе между нулевой и альтернативной.

Это определение обеспечивает взаимодополняемость p-значений и альфа-уровней. Если мы установим уровень значимости альфа на 0,05 и отклоним нулевую гипотезу только в том случае, если значение p меньше или равно 0,05, тогда наш тест гипотезы действительно будет иметь уровень значимости (максимальный коэффициент ошибок типа 1) 0,05. Как писал Нейман: «Ошибка, которую практикующий статистик считает более важной, чтобы ее избежать (что является субъективным суждением), называется ошибкой первого рода. Первое требование математической теории - вывести такие критерии проверки, которые гарантировали бы, что вероятность совершения ошибки первого рода будет равна (или приблизительно равна, или не превышает) заранее заданному числу α, например α = 0,05 или 0,01. и т. д. Это число называется уровнем значимости »; Нейман 1976, стр. 161 в «Возникновение математической статистики: исторический очерк с особым упором на Соединенные Штаты», «Об истории статистики и вероятности», изд. ДБ Оуэн, Нью-Йорк: Марсель Деккер, стр. 149–193. См. Также «Путаница в отношении критериев доказательности (р) и ошибок (а) в классическом статистическом тестировании», Рэймонд Хаббард и М. Дж. Баярри, Американский статистик, август 2003 г., том. 57, No 3, 171--182 (с обсуждением). Краткое современное утверждение см. В главе 10 книги «Вся статистика: краткий курс статистических выводов», Springer; 1-е исправленное изд. 20-е издание (17 сентября 2004 г.). Ларри Вассерман.

использование

Значение p широко используется при проверке статистических гипотез , особенно при проверке значимости нулевых гипотез. В этом методе, как часть экспериментального плана , перед проведением эксперимента сначала выбирается модель ( нулевая гипотеза ) и пороговое значение для p , называемое уровнем значимости теста, традиционно 5% или 1% и обозначаемое как α . Если значение p меньше выбранного уровня значимости ( α ), это говорит о том, что наблюдаемые данные достаточно несовместимы с нулевой гипотезой и что нулевая гипотеза может быть отклонена. Однако это не доказывает, что проверенная гипотеза ложна. Когда р -значение правильно вычисляется, этот тест гарантирует , что частота появления ошибок типа I. не превосходит альфа . Для типичного анализа с использованием стандартного  отсечения α = 0,05 нулевая гипотеза отклоняется, если p ≤ 0,05, и не отклоняется, если p > 0,05. Значение p само по себе не поддерживает рассуждения о вероятностях гипотез, а является лишь инструментом для принятия решения, следует ли отвергать нулевую гипотезу.

Неправильное использование

Согласно ASA , широко распространено мнение о том, что значения p часто неправильно используются и неверно интерпретируются. Одна практика, которая подверглась особой критике, - это принятие альтернативной гипотезы для любого значения p, номинально меньшего 0,05, без других подтверждающих доказательств. Хотя p- значения помогают оценить, насколько данные несовместимы с определенной статистической моделью, необходимо также учитывать контекстуальные факторы, такие как «дизайн исследования, качество измерений, внешние свидетельства изучаемого явления, и обоснованность предположений, лежащих в основе анализа данных ". Другая проблема заключается в том, что p- значение часто неправильно понимается как вероятность того, что нулевая гипотеза верна.

Некоторые статистики предлагают отказаться от p- значений и больше сосредоточиться на другой выводимой статистике, такой как доверительные интервалы , отношения правдоподобия или байесовские коэффициенты , но по поводу осуществимости этих альтернатив ведутся жаркие споры. Другие предложили удалить фиксированные пороги значимости и интерпретировать p-значения как непрерывные показатели силы свидетельств против нулевой гипотезы. Третьи предложили сообщать вместе с p-значениями априорную вероятность реального эффекта, который потребовался бы для получения ложноположительного риска (т. Е. Вероятность отсутствия реального эффекта) ниже заранее заданного порога (например, 5%).

Расчет

Обычно это тестовая статистика . Тестовая статистика - это результат скалярной функции всех наблюдений. Эта статистика предоставляет одно число, например t-статистику или F-статистику. Таким образом, статистика теста следует распределению, определяемому функцией, используемой для определения этой статистики теста, и распределения входных данных наблюдений.

Для важного случая, когда предполагается, что данные являются случайной выборкой из нормального распределения, в зависимости от природы тестовой статистики и интересующих гипотез о ее распределении, были разработаны различные тесты нулевой гипотезы. Некоторые из таких тестов - это z-тест для гипотез, касающихся среднего нормального распределения с известной дисперсией, t-тест, основанный на t-распределении Стьюдента подходящей статистики для гипотез, касающихся среднего нормального распределения, когда дисперсия неизвестна, F-тест на основе F-распределения еще одной статистики для гипотез о дисперсии. Для данных другой природы, например категориальных (дискретных) данных, может быть построена тестовая статистика, распределение нулевой гипотезы которой основано на нормальных приближениях к соответствующей статистике, полученной путем применения центральной предельной теоремы для больших выборок, как в случае критерия Пирсона. квадратный тест .

Таким образом, для вычисления p- значения требуется нулевая гипотеза, тестовая статистика (вместе с решением, выполняет ли исследователь односторонний или двусторонний тест ) и данные. Несмотря на то, что вычисление тестовой статистики по заданным данным может быть простым, вычисление выборочного распределения при нулевой гипотезе, а затем вычисление его кумулятивной функции распределения (CDF) часто является сложной проблемой. Сегодня эти вычисления выполняются с использованием статистического программного обеспечения, часто с помощью числовых методов (а не точных формул), но в начале и середине 20-го века это вместо этого выполнялось с помощью таблиц значений и одного интерполированного или экстраполированного p-значения из этих дискретные значения. Вместо того, чтобы использовать таблицу p- значений , Фишер вместо этого инвертировал CDF, опубликовав список значений тестовой статистики для заданных фиксированных p- значений; это соответствует вычислению функции квантиля (обратный CDF).

Пример

В качестве примера статистического теста, эксперимент проводится , чтобы определить , является ли подбрасывание монеты является справедливым (равной вероятностью посадки голов или хвостов) или несправедливо пристрастных (один результат с большей вероятностью , чем другие).

Предположим, что экспериментальные результаты показывают, что монета переворачивается орлом 14 раз из 20 общих подбрасываний. Полные данные будут последовательностью, в двадцать раз превышающей символ «H» или «T». Статистикой, на которой можно сосредоточиться, может быть общее количество голов. Нулевая гипотеза состоит в том, что монета честная и подбрасывания монеты не зависят друг от друга. Если рассматривается правосторонний тест, что может иметь место, если кто-то действительно интересуется возможностью того, что монета смещена в сторону падающей орла , тогда p- значение этого результата представляет собой шанс справедливой выпадения монеты орлом в не менее 14 раз из 20 сальто. Эта вероятность может быть вычислена из биномиальных коэффициентов как

Эта вероятность представляет собой p -значение, учитывая только крайние результаты, которые благоприятствуют орлам. Это называется односторонним тестом . Однако кого-то могут интересовать отклонения в любом направлении, отдавая предпочтение орлу или решке. Вместо этого может быть вычислено двустороннее значение p , которое учитывает отклонения в пользу орла или решки. Поскольку биномиальное распределение симметрично для честной монеты, двустороннее значение p просто вдвое больше, чем рассчитанное выше одностороннее значение p : двустороннее значение p равно 0,115.

В приведенном выше примере:

  • Нулевая гипотеза (H 0 ): монета справедливая, с вероятностью (орла) = 0,5.
  • Статистика теста: количество голов
  • Альфа-уровень (обозначенный порог значимости): 0,05
  • Наблюдение O: 14 решек из 20 сальто; а также
  • Двусторонний p -значение наблюдения O при H 0 = 2 * мин ( Вероятность (кол-во голов ≥ 14 голов), Вероятность (кол-во голов ≤ 14 голов)) = 2 * мин (0,058, 0,978) = 2 * 0,058 = 0,115.

Обратите внимание, что Prob (количество голов ≤ 14 голов) = 1 - Prob (количество голов ≥ 14 голов) + Prob (количество голов = 14) = 1 - 0,058 + 0,036 = 0,978; однако симметрия биномиального распределения делает ненужным вычисление для нахождения меньшей из двух вероятностей. Здесь рассчитанное значение p превышает 0,05, что означает, что данные попадают в диапазон того, что произошло бы в 95% случаев, если бы монета была действительно честной. Следовательно, нулевая гипотеза не отклоняется на уровне 0,05.

Однако, если бы была получена еще одна голова, результирующее значение p (двустороннее) было бы 0,0414 (4,14%), и в этом случае нулевая гипотеза была бы отклонена на уровне 0,05.

История

Вычисления p- значений относятся к 1700-м годам, когда они были рассчитаны для соотношения полов человека при рождении и использовались для вычисления статистической значимости по сравнению с нулевой гипотезой о равной вероятности рождения мужского и женского пола. Джон Арбетнот изучал этот вопрос в 1710 году и изучал записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год. Каждый год количество мужчин, рожденных в Лондоне, превышало количество женщин. Если рассматривать большее количество мужских или более женских рождений как равновероятные, вероятность наблюдаемого результата составляет 1/2 82 , или примерно 1 к 48360000000000000000000000; говоря современным языком, p -значение. Это исчезающе мало, что приводит Арбетнота к тому, что это произошло не случайно, а по божественному провидению: «Отсюда следует, что правит искусство, а не случайность». Говоря современным языком, он отверг нулевую гипотезу о равной вероятности рождения мужского и женского пола при уровне значимости p  = 1/2 82 . Эта и другие работы Арбутнота считаются «… первым использованием критериев значимости…» первым примером рассуждений о статистической значимости и «… возможно, первым опубликованным отчетом о непараметрическом тесте …», в ​​частности критерием знаков ; подробности см. в разделе «Проверка знаков» § История .

Позже к этому же вопросу обратился Пьер-Симон Лаплас , который вместо этого использовал параметрический тест, моделируя количество рождений мужского пола с биномиальным распределением :

В 1770-х годах Лаплас считал статистику почти полумиллиона рождений. Статистика показала превышение количества мальчиков над девочками. Он пришел к выводу, вычислив p -значение, что превышение было реальным, но необъяснимым эффектом.

Значение p было впервые формально введено Карлом Пирсоном в его тесте хи-квадрат с использованием распределения хи-квадрат и обозначено как заглавная буква P. Значения p для распределения хи-квадрат (для различных значений χ 2 и степени свободы), теперь обозначаемые как P, были рассчитаны в ( Elderton 1902 ), собранные в ( Pearson 1914 , стр. xxxi – xxxiii, 26–28, таблица XII) .

Использование p- значения в статистике было популяризировано Рональдом Фишером , и оно играет центральную роль в его подходе к предмету. В своей влиятельной книге « Статистические методы для научных работников» (1925) Фишер предложил уровень p = 0,05 или вероятность случайного превышения 1 из 20 в качестве предела статистической значимости и применил его к нормальному распределению (как двусторонний тест), что дает правило двух стандартных отклонений (при нормальном распределении) для статистической значимости (см. правило 68–95–99,7 ).

Затем он составил таблицу значений, аналогичную таблице Элдертона, но, что важно, поменял местами χ 2 и p. То есть, вместо того, чтобы вычислять p для разных значений χ 2 (и степеней свободы n ), он вычислял значения χ 2, которые дают заданные значения p , а именно 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50. , 0,30, 0,20, 0,10, 0,05, 0,02 и 0,01. Это позволяло сравнивать вычисленные значения χ 2 с отсечками и поощряло использование p- значений (особенно 0,05, 0,02 и 0,01) в качестве отсечки вместо вычисления и представления самих p- значений. Таблицы того же типа были затем составлены в ( Fisher & Yates 1938 ), что закрепило этот подход.

В качестве иллюстрации применения p- значений к плану и интерпретации экспериментов в своей следующей книге « Планирование экспериментов» (1935) Фишер представил эксперимент с дамой, дегустирующим чай , который является архетипическим примером p- значения.

Чтобы оценить утверждение женщины о том, что она ( Мюриэль Бристол ) могла различать по вкусу способ приготовления чая (сначала добавляя молоко в чашку, затем чай или сначала чай, затем молоко), ей последовательно предлагали 8 чашек: 4 приготовленных. в одном случае четверо приготовили другой и попросили определить приготовление каждой чашки (зная, что их было по четыре). В этом случае нулевая гипотеза заключалась в том, что у нее не было особых способностей, тест был точным тестом Фишера , а значение p было таким, что Фишер был готов отклонить нулевую гипотезу (считайте, что результат очень маловероятен, если это случайность), если все были классифицированы правильно. (В реальном эксперименте Бристоль правильно классифицировал все 8 чашек.)

Фишер повторил порог p = 0,05 и объяснил его обоснование, заявив:

Для экспериментаторов обычно и удобно принимать 5% за стандартный уровень значимости в том смысле, что они готовы игнорировать все результаты, которые не соответствуют этому стандарту, и, таким образом, исключить из дальнейшего обсуждения более значимые результаты. часть колебаний, которые случайные причины внесли в их экспериментальные результаты.

Он также применяет этот порог к планированию экспериментов, отмечая, что если бы было представлено только 6 чашек (по 3 каждой), идеальная классификация дала бы только p- значение, которое не соответствовало бы этому уровню значимости. Фишер также подчеркнул интерпретацию p как долгосрочной доли значений, по крайней мере, столь же экстремальных, как и данные, при условии, что нулевая гипотеза верна.

В более поздних изданиях Фишер явно противопоставил использование p- значения для статистических выводов в науке методу Неймана – Пирсона, который он назвал «процедурами принятия». Фишер подчеркивает, что, хотя фиксированные уровни, такие как 5%, 2% и 1%, удобны, можно использовать точное значение p , а сила доказательств может и будет пересмотрена в ходе дальнейших экспериментов. Напротив, процедуры принятия решений требуют четкого решения, приводящего к необратимым действиям, а процедура основана на стоимости ошибки, которая, как он утверждает, неприменима к научным исследованиям.

Связанные количества

Тесно связанным понятием является E- значение , которое представляет собой ожидаемое количество раз при множественном тестировании, при котором ожидается получение статистики теста, по крайней мере, такой же экстремальной, как та, которая действительно наблюдалась, если предположить, что нулевая гипотеза верна. E -value является произведением числа тестов и р -значение.

Д -значение является аналогом р -значение по отношению к положительной скорости ложного обнаружения . Он используется при проверке нескольких гипотез для поддержания статистической мощности при минимизации количества ложных срабатываний .

Смотрите также

Примечания

использованная литература

дальнейшее чтение

внешние ссылки