Знаковый тест - Sign test

Тест знака представляет собой статистический метод для проверки последовательных различий между парами наблюдений, такими , как вес предметов до и после лечения. Учитывая пары наблюдений (например, вес до и после лечения) для каждого субъекта, тест знаков определяет, имеет ли один член пары (например, до лечения) тенденцию быть больше (или меньше) другого члена группы. пара (например, после лечения).

Парные наблюдения могут быть обозначены x и y . Для сравнения парных наблюдений ( x , y) знаковый тест наиболее полезен, если сравнения могут быть выражены только как x > y , x = y или x < y . Если вместо этого наблюдения могут быть выражены как числовые величины ( x = 7, y = 18) или как ранги (ранг x = 1, ранг y = 8), то парный t-критерий или знак Уилкоксона - Ранговый тест обычно имеет большую мощность, чем знаковый тест, для обнаружения устойчивых различий.

Если X и Y являются количественными переменными, критерий знаков может использоваться для проверки гипотезы о том, что разница между X и Y имеет нулевую медианную, при условии непрерывного распределения двух случайных величин X и Y в ситуации, когда мы можем нарисовать парные образцы из X и Y .

Тест знака также может проверить, значительно ли медиана набора чисел больше или меньше указанного значения. Например, учитывая список оценок учащихся в классе, тест по знакам может определить, значительно ли отличается средняя оценка от, скажем, 75 из 100.

Знаковый тест - это непараметрический тест, который делает очень мало предположений о природе тестируемых распределений - это означает, что он имеет очень общую применимость, но может не обладать статистической мощностью альтернативных тестов.

Два условия для знакового критерия парной выборки заключаются в том, что выборка должна быть случайным образом отобрана из каждой совокупности, а выборки должны быть зависимыми или парными. Независимые образцы не могут быть осмысленно спарены. Поскольку тест является непараметрическим, выборки не обязательно должны поступать из нормально распределенных популяций. Кроме того, этот тест работает для левосторонних, правосторонних и двусторонних тестов.

Метод

Пусть p = Pr ( X > Y ), а затем проверьте нулевую гипотезу H 0 : p = 0,50. Другими словами, нулевая гипотеза утверждает, что при случайной паре измерений ( x i , y i ) x i и y i с равной вероятностью будут больше, чем другие.

Чтобы проверить нулевую гипотезу, независимые пары выборочных данных собираются из популяций {( x 1 , y 1 ), ( x 2 , y 2 ),. . ., ( x n , y n )}. Пары опускаются, для которых нет разницы, так что существует возможность сокращенной выборки из m пар.

Тогда пусть W будет числом пар, для которых y i  -  x i > 0. Если предположить, что H 0 истинно, тогда W следует биномиальному распределению W ~ b ( m , 0,5).

Предположения

Пусть Z i  =  Y i  -  X i для i  = 1, ...,  n .

  1. Предполагается, что разности Z i независимы.
  2. Каждый Z i происходит от одной и той же постоянной популяции.
  3. Представляемые значения X i и Y i упорядочены (по крайней мере, в порядковой шкале ), поэтому сравнения «больше чем», «меньше чем» и «равно» имеют смысл.

Проверка значимости

Поскольку ожидается, что статистика теста будет следовать биномиальному распределению , для вычисления значимости используется стандартный биномиальный тест . Нормальное приближение к биномиальному распределению может быть использовано для больших размеров образца, м > 25.

Значение левого хвоста вычисляется с помощью Pr ( Ww ), которое является p-значением для альтернативы H 1 : p <0,50. Эта альтернатива означает, что измерения X имеют тенденцию быть выше.

Значение правого хвоста вычисляется с помощью Pr ( Ww ), которое является p-значением для альтернативы H 1 : p > 0,50. Этот вариант означает, что измерения Y имеют тенденцию быть выше.

Для двусторонней альтернативы H 1 значение p в два раза больше меньшего хвостового значения.

Пример двустороннего знакового теста для совпадающих пар

Зар приводит следующий пример проверки знаков для совпадающих пар. Собираются данные о длине левой задней лапы и левой передней лапы для 10 оленей.

Олень Длина задней лапы (см) Длина передней ноги (см) Разница
1 142 138 +
2 140 136 +
3 144 147 -
4 144 139 +
5 142 143 -
6 146 141 +
7 149 143 +
8 150 145 +
9 142 136 +
10 148 146 +

Нулевая гипотеза состоит в том, что у оленей нет разницы между длиной задней и передней конечностей. Альтернативная гипотеза состоит в том, что существует разница между длиной задней и передней конечностей. Это двусторонний тест, а не односторонний. Для теста с двумя хвостами альтернативная гипотеза состоит в том, что длина задней лапы может быть больше или меньше длины передней лапы. Односторонний тест может заключаться в том, что длина задней лапы больше, чем длина передней лапы, так что разница может быть только в одном направлении (больше чем).

Всего n = 10 оленей. Есть 8 положительных отличий и 2 отрицательных отличия. Если нулевая гипотеза верна и нет разницы в длине задних и передних конечностей, то ожидаемое количество положительных различий равно 5 из 10. Какова вероятность того, что наблюдаемый результат 8 положительных различий или более экстремальный результат , произошло бы, если бы не было разницы в длине ног?

Поскольку тест является двусторонним, результат как крайний или более экстремальный, чем 8 положительных различий, включает результаты 8, 9 или 10 положительных различий и результаты 0, 1 или 2 положительных различий. Вероятность 8 или более положительных результатов среди 10 оленей или 2 или менее положительных результатов среди 10 оленей такая же, как вероятность 8 или более орлов или 2 или менее выпадений при 10 бросках справедливой монеты. Вероятности могут быть рассчитаны с помощью биномиального теста с вероятностью выпадения орла = вероятностью решки = 0,5.

  • Вероятность выпадения 0 орлов при 10 бросках честной монеты = 0,00098
  • Вероятность выпадения 1 решки при 10 бросках справедливой монеты = 0,00977
  • Вероятность выпадения 2 орлов при 10 бросках честной монеты = 0,04395
  • Вероятность выпадения 8 орлов при 10 бросках честной монеты = 0,04395
  • Вероятность выпадения 9 орлов при 10 бросках честной монеты = 0,00977
  • Вероятность выпадения 10 орлов при 10 бросках честной монеты = 0,00098

Двусторонняя вероятность результата, равного 8 из 10 положительной разницы, является суммой этих вероятностей:

0,00098 + 0,00977 + 0,04395 + 0,04395 + 0,00977 + 0,00098 = 0,109375.

Таким образом, вероятность получить такой экстремальный результат, как 8 из 10 положительных различий в длине ног, если нет разницы в длине ног, составляет p  = 0,109375. Нулевая гипотеза не отвергается при уровне значимости p  = 0,05. При большем размере выборки свидетельств может быть достаточно, чтобы отвергнуть нулевую гипотезу.

Поскольку наблюдения могут быть выражены в виде числовых величин (фактическая длина ноги), парный t-критерий или знаковый ранговый критерий Уилкоксона обычно будет иметь большую мощность, чем знаковый критерий для обнаружения устойчивых различий. В этом примере парный t-критерий различий показывает, что существует значительная разница между длиной задних и передних конечностей ( p  = 0,007).

Если наблюдаемый результат составил 9 положительных различий в 10 сравнениях, критерий знаков был бы значимым. Только подбрасывание монеты с 0, 1, 9 или 10 орлом будет столь же экстремальным или более экстремальным, чем наблюдаемый результат.

  • Вероятность выпадения 0 орлов при 10 бросках честной монеты = 0,00098
  • Вероятность выпадения 1 решки при 10 бросках справедливой монеты = 0,00977
  • Вероятность выпадения 9 орлов при 10 бросках честной монеты = 0,00977
  • Вероятность выпадения 10 орлов при 10 бросках честной монеты = 0,00098

Вероятность результата, равного 9 из 10 положительной разницы, является суммой этих вероятностей:

0,00098 + 0,00977 + 0,00977 + 0,00098 = 0,0215.

В целом, 8 из 10 положительных различий не являются значимыми ( p  = 0,11), но 9 из 10 положительных различий значимы ( p  = 0,0215).

Примеры

Пример одностороннего знакового теста для совпадающих пар

Коновер приводит следующий пример с использованием одностороннего знакового теста для совпадающих пар. Производитель производит два продукта, A и B. Производитель хочет знать, предпочитают ли потребители продукт B продукту A. Каждой выборке из 10 потребителей был предоставлен продукт A и продукт B, и они спросили, какой продукт они предпочитают.

Нулевая гипотеза состоит в том, что потребители не предпочитают продукт B продукту A. Альтернативная гипотеза состоит в том, что потребители предпочитают продукт B продукту A. Это односторонний (направленный) тест.

В конце исследования 8 потребителей предпочли продукт B, 1 потребитель предпочел продукт A и один не сообщил о предпочтениях.

  • Количество + (предпочтительно B) = 8
  • Количество знаков «-» (предпочтительно A) = 1
  • Количество галстуков (без предпочтения) = 1

Ничья исключается из анализа, что дает n = количество плюсов и минусов = 8 + 1 = 9.

Какова вероятность такого экстремального результата, как 8 положительных результатов в пользу B в 9 парах, если нулевая гипотеза верна, что потребители не предпочтут B перед A? Это вероятность выпадения 8 или более орлов при 9 подбрасывании справедливой монеты, и ее можно рассчитать с использованием биномиального распределения с p (орел) = p (решка) = 0,5.

P (8 или 9 орлов за 9 бросков честной монеты) = 0,0195. Нулевая гипотеза отклоняется, и производитель заключает, что потребители предпочитают продукт B продукту A.

Пример знакового теста для медианы одной выборки

Спрент приводит следующий пример знакового теста для медианы. В клинических испытаниях время выживания (недели) собирают для 10 субъектов с неходжкинской лимфомой. Точное время выживания не было известно для одного субъекта, который был еще жив через 362 недели, когда исследование закончилось. Время выживания субъектов было

49, 58, 75, 110, 112, 132, 151, 276, 281, 362+

Знак плюс указывает на то, что субъект все еще жив к концу исследования. Исследователь хотел определить, было ли среднее время выживания меньше или больше 200 недель.

Нулевая гипотеза состоит в том, что средняя выживаемость составляет 200 недель. Альтернативная гипотеза состоит в том, что медиана выживаемости составляет не 200 недель. Это двусторонний тест: альтернативная медиана может быть больше или меньше 200 недель.

Если нулевая гипотеза верна, то средняя выживаемость составляет 200 недель, тогда в случайной выборке примерно половина субъектов должна выжить менее 200 недель, а половина - более 200 недель. Наблюдениям ниже 200 присваивается минус (-); наблюдениям выше 200 присваивается плюс (+). Что касается времени выживания субъектов, существует 7 наблюдений менее 200 недель (-) и 3 наблюдения более 200 недель (+) для n = 10 субъектов.

Поскольку любое одно наблюдение с равной вероятностью будет выше или ниже медианы популяции, количество положительных оценок будет иметь биномиальное распределение со средним значением = 0,5. Какова вероятность того, что такой экстремальный результат у 7 из 10 испытуемых окажется ниже среднего? Это в точности то же самое, что и вероятность результата, равного 7 ордам за 10 подбрасываний справедливой монеты. Поскольку это двусторонний тест, экстремальным результатом может быть три или меньше голов или семь или более голов.

Вероятность увидеть k орлов за 10 подбрасываний честной монеты при p (орлах) = 0,5 определяется биномиальной формулой:

Pr (Количество головок = k ) = Выбрать (10, k ) × 0,5 ^ 10

Вероятность для каждого значения k приведена в таблице ниже.

k 0 1 2 3 4 5 6 7 8 9 10
Pr 0,0010 0,0098 0,0439 0,1172 0,2051 0,2461 0,2051 0,1172 0,0439 0,0098 0,0010

Вероятность выпадения 0, 1, 2, 3, 7, 8, 9 или 10 решек за 10 бросков - это сумма их индивидуальных вероятностей:

0,0010 + 0,0098 + 0,0439 + 0,1172 + 0,1172 + 0,0439 + 0,0098 + 0,0010 = 0,3438.

Таким образом, вероятность наблюдения 3 или менее знаков плюс или 7 или более знаков плюс в данных о выживаемости, если медиана выживаемости составляет 200 недель, составляет 0,3438. Ожидаемое количество знаков плюс - 5, если нулевая гипотеза верна. Наблюдение 3 или меньше, или 7 или более плюсов существенно не отличается от 5. Нулевая гипотеза не отклоняется. Из-за чрезвычайно малого размера выборки у этой выборки мало возможностей для обнаружения различий.

Программные реализации

Знаковый тест - это частный случай биномиального теста, где вероятность успеха при нулевой гипотезе составляет p = 0,5. Таким образом, знаковый тест может быть выполнен с использованием биномиального теста, который предусмотрен в большинстве статистических программ. Он-лайн калькуляторы для проверки знаков можно найти, выполнив поиск по запросу "калькулятор проверки знаков". Многие веб-сайты предлагают биномиальный тест, но обычно предлагают только двустороннюю версию.

Программа Excel для проверки знаков

Шаблон для проверки знаков с использованием Excel доступен по адресу http://www.real-statistics.com/non-parametric-tests/sign-test/

Программное обеспечение R для проверки знаков

В R биномиальный тест можно выполнить с помощью функции binom.test().

Синтаксис функции:

binom.test(x, n, p = 0.5, alternative = c("two.sided", "less", "greater"), conf.level = 0.95)

где

  • x = количество успехов или вектор длины 2, дающий количество успехов и неудач, соответственно
  • n= количество испытаний; игнорируется, если x имеет длину 2
  • p = предполагаемая вероятность успеха
  • alternative = указывает на альтернативную гипотезу и должен иметь одно из двух значений: «двусторонний», «больше» или «меньше».
  • conf.level = уровень достоверности для возвращенного доверительного интервала.

Примеры проверки знаков с использованием функции R binom.test

В тестовом примере из Зара сравнивалась длина задних и передних ног оленей. Задняя лапа была длиннее передней у 8 из 10 оленей. Таким образом, в n = 10 испытаниях получено x = 8 успехов. Предполагаемая вероятность успеха (определяемая как  длина задней лапы, чем передняя) составляет p = 0,5 при нулевой гипотезе о том, что задние и передние конечности не различаются по длине. Альтернативная гипотеза состоит в том, что длина задней лапы может быть больше или меньше длины передней лапы, что является двусторонним тестом, определенным как альтернатива = "two.sided".

Команда R дает p = 0,1094, как в примере. binom.test(x=8, n=10, p=0.5, alternative="two.sided")

В примере теста знаков в Conover изучались предпочтения потребителей продукта A по сравнению с продуктом B. Нулевая гипотеза заключалась в том, что потребители не предпочитают продукт B продукту A. Альтернативная гипотеза заключалась в том, что потребители предпочитают продукт B продукту A, односторонний тест. . В исследовании 8 из 9 потребителей, которые выразили предпочтение продукту B, предпочли продукт A.

Команда R дает p = 0,01953, как в примере. binom.test(x=8, n=9, p=0.5, alternative="greater")

История

Коновер и Спрент описывают, как Джон Арбутнот использовал знаковый тест в 1710 году. Арбутнот изучал записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год. Каждый год количество мужчин, рожденных в Лондоне, превышало количество женщин. Если нулевая гипотеза о равном количестве рождений верна, вероятность наблюдаемого результата составляет 1/2 82 , что приводит Арбутно к выводу, что вероятность рождения мужского и женского пола не была в точности равной.

В своих публикациях в 1692 и 1710 годах Арбетноту приписывают «… первое использование критериев значимости…», первый пример рассуждений о статистической значимости и моральной уверенности, и «… возможно, первый опубликованный отчет непараметрического теста…».

Халд далее описывает влияние исследования Арбетнота.

"Николас Бернулли (1710–1713) завершает анализ данных Арбутнота, показывая, что большую часть изменения годового числа рождений мужского пола можно объяснить как биномиальное с p  = 18/35. Это первый пример подбора бином по отношению к данным. Следовательно, здесь мы имеем тест на значимость, отклоняющий гипотезу p = 0,5, за которым следует оценка p и обсуждение степени согласия… "

Связь с другими статистическими тестами

Знаковый ранговый тест Вилкоксона

Для проверки знаков требуется только упорядочить наблюдения в паре, например, x > y . В некоторых случаях наблюдениям для всех субъектов может быть присвоено значение ранга (1, 2, 3, ...). Если наблюдения можно ранжировать, и каждое наблюдение в паре представляет собой случайную выборку из симметричного распределения, тогда подходит критерий ранжирования со знаком Вилкоксона . Тест Вилкоксона обычно дает больше возможностей для выявления различий, чем тест знаков. Асимптотическая относительная эффективность теста знака на тест подписал ранг Вилкоксон, при этих обстоятельствах, 0,67.

Парный t-тест

Если парные наблюдения представляют собой числовые величины (такие как фактическая длина задней и передней конечностей в примере Zar), а различия между парными наблюдениями представляют собой случайные выборки из одного нормального распределения, то подходит парный t-критерий . Парный t-тест, как правило, имеет большую мощность для обнаружения различий, чем знаковый тест. Асимптотическая относительная эффективность критерия знака по сравнению с парным t-критерием при этих обстоятельствах составляет 0,637. Однако, если распределение различий между парами не является нормальным, а вместо этого является тяжелым хвостом ( платикуртическое распределение ), критерий знаков может иметь большую мощность, чем парный t-критерий, с асимптотической относительной эффективностью 2,0 по сравнению с парным t -тест и 1,3 относительно знакового рангового теста Уилкоксона.

Тест Макнемара

В некоторых приложениях наблюдения в каждой паре могут принимать только значения 0 или 1. Например, 0 может указывать на сбой, а 1 может указывать на успех. Возможны 4 пары: {0,0}, {0,1}, {1,0} и {1,1}. В этих случаях используется та же процедура, что и знаковая проверка, но известная как тест Макнемара .

Тест Фридмана

Вместо парных наблюдений, таких как (продукт A, продукт B), данные могут состоять из трех или более уровней (продукт A, продукт B, продукт C). Если отдельные наблюдения можно упорядочить так же, как и для теста знаков, например B> C> A, то можно использовать критерий Фридмана .

Триномиальный тест

Биан, МакАлир и Вонг предложили в 2011 году непараметрический тест для парных данных, когда имеется много связей. Они показали, что их трехчленный тест лучше теста знаков при наличии связей.

Смотрите также

Ссылки

  • Гиббонс, Дж. Д. и Чакраборти, С. (1992). Непараметрический статистический вывод. Marcel Dekker Inc., Нью-Йорк.
  • Кухни, ЖЖ (2003). Базовая статистика и анализ данных. Даксбери.
  • Коновер, WJ (1980). Практическая непараметрическая статистика , 2-е изд. Вили, Нью-Йорк.
  • Леманн, Э.Л. (1975). Непараметрика: статистические методы на основе рангов. Холден и Дэй, Сан-Франциско.