Строго стандартизированная разница средних значений - Strictly standardized mean difference

В статистике , то строго нормируется среднее различие (SSMD) является мерой величины эффекта . Это среднее значение, деленное на стандартное отклонение разницы между двумя случайными значениями каждой из двух групп. Первоначально он был предложен для контроля качества и отбора попаданий при высокопроизводительном скрининге (HTS) и стал статистическим параметром, измеряющим величину эффекта для сравнения любых двух групп со случайными значениями.

Фон

При высокопроизводительном скрининге (HTS) контроль качества (QC) имеет решающее значение. Важной характеристикой QC в анализе HTS является то, насколько положительные контроли, тестируемые соединения и отрицательные контроли отличаются друг от друга. Эта характеристика контроля качества может быть оценена путем сравнения двух типов лунок в анализах HTS . Отношение сигнал / шум (S / N), отношение сигнал / фон (S / B) и Z-фактор были приняты для оценки качества HTS- анализов путем сравнения двух исследуемых типов лунок. Однако S / B не принимает во внимание информацию об изменчивости; и отношение S / N может отражать вариабельность только в одной группе и, следовательно, не может оценивать качество анализа, когда две группы имеют разные вариабельности. Zhang JH et al. предложил Z-фактор . Преимущество Z-фактора перед S / N и S / B состоит в том, что он учитывает изменчивость в обеих сравниваемых группах. В результате Z-фактор широко используется в качестве показателя качества в тестах HTS. Абсолютный знак в Z-факторе затрудняет математический вывод его статистического вывода.

Чтобы получить лучший интерпретируемый параметр для измерения дифференциации между двумя группами, Zhang XHD предложил SSMD для оценки дифференциации между положительным контролем и отрицательным контролем в анализах HTS. SSMD имеет вероятностную основу из-за его сильной связи с d ⁺ -вероятностью (т. Е. Вероятностью того, что разница между двумя группами положительна). В некоторой степени d ⁺ -воздействие эквивалентно хорошо известному вероятностному индексу P ( X > Y ), который изучался и применялся во многих областях. SSMD, поддерживаемый на вероятностной основе, используется как для контроля качества, так и для выбора совпадений при высокопроизводительном скрининге.

Концепция

Статистический параметр

В качестве статистического параметра SSMD (обозначается как ) определяется как отношение среднего к стандартному отклонению разницы двух случайных значений, соответственно, из двух групп. Предположим, что одна группа со случайными значениями имеет среднее значение и дисперсию, а другая группа - среднее значение и дисперсию . Ковариации между двумя группами Затем SSMD для сравнения этих двух групп определяется как ${\ displaystyle \ beta}$ ${\ displaystyle \ mu _ {1}}$ ${\ displaystyle \ sigma _ {1} ^ {2}}$ ${\ displaystyle \ mu _ {2}}$ ${\ displaystyle \ sigma _ {2} ^ {2}}$ ${\ displaystyle \ sigma _ {12}.}$

{\ displaystyle \ beta = {\ frac {\ mu _ {1} - \ mu _ {2}} {\ sqrt {\ sigma _ {1} ^ {2} + \ sigma _ {2} ^ {2} - 2 \ sigma _ {12}}}}.}

Если две группы независимы,

{\ displaystyle \ beta = {\ frac {\ mu _ {1} - \ mu _ {2}} {\ sqrt {\ sigma _ {1} ^ {2} + \ sigma _ {2} ^ {2}} }}.}

Если две независимые группы имеют равные отклонения , ${\ displaystyle \ sigma ^ {2}}$

{\ displaystyle \ beta = {\ frac {\ mu _ {1} - \ mu _ {2}} {{\ sqrt {2}} \ sigma}}.}

В ситуации, когда две группы коррелированы, обычно используемая стратегия, позволяющая избежать вычисления, состоит в том, чтобы сначала получить парные наблюдения от двух групп, а затем оценить SSMD на основе парных наблюдений. На основе парной разницы со средним значением для популяции и SSMD составляет ${\ displaystyle \ sigma _ {12}}$ ${\ displaystyle D}$ ${\ displaystyle \ mu _ {D}}$ ${\ displaystyle \ sigma _ {D} ^ {2}}$

{\ displaystyle \ beta = {\ frac {\ mu _ {D}} {\ sigma _ {D}}}.}

Статистическая оценка

В ситуации, когда две группы независимы, Zhang XHD вывел оценку максимального правдоподобия (MLE) и оценку методом момента (MM) SSMD. Предположим, что группы 1 и 2 имеют выборочное среднее и выборочные дисперсии . ММ-оценка SSMD тогда равна ${\ displaystyle {\ bar {X}} _ {1}, {\ bar {X}} _ {2}}$ ${\ displaystyle s_ {1} ^ {2}, s_ {2} ^ {2}}$

{\ displaystyle {\ hat {\ beta}} = {\ frac {{\ bar {X}} _ {1} - {\ bar {X}} _ {2}} {\ sqrt {s_ {1} ^ { 2} + s_ {2} ^ {2}}}}.}

Когда две группы имеют нормальные распределения с равной дисперсией , несмещенная оценка с равномерной минимальной дисперсией (UMVUE) SSMD равна,

{\ displaystyle {\ hat {\ beta}} = {\ frac {{\ bar {X}} _ {1} - {\ bar {X}} _ {2}} {\ sqrt {{\ frac {2}) {K}} ((n_ {1} -1) s_ {1} ^ {2} + (n_ {2} -1) s_ {2} ^ {2})}}},}

где - размеры выборки в двух группах и . ${\ displaystyle n_ {1}, n_ {2}}$ ${\ Displaystyle К \ приблизительно n_ {1} + n_ {2} -3,48}$

В ситуации, когда две группы коррелированы на основе парных различий с размером выборки, средним значением выборки и дисперсией выборки , ММ-оценка SSMD равна ${\ displaystyle n}$ ${\ displaystyle {\ bar {D}}}$ ${\ displaystyle s_ {D} ^ {2}}$

{\ displaystyle {\ hat {\ beta}} = {\ frac {\ bar {D}} {s_ {D}}}.}

Оценка SSMD UMVUE составляет

{\ displaystyle {\ hat {\ beta}} = {\ frac {\ Gamma ({\ frac {n-1} {2}})} {\ Gamma ({\ frac {n-2} {2}}) }} {\ sqrt {\ frac {2} {n-1}}} {\ frac {\ bar {D}} {s_ {D}}}.}.

SSMD похож на t-статистику и d Коэна, но они отличаются друг от друга, как показано на.

Применение в высокопроизводительных скрининговых анализах

SSMD - это отношение среднего значения к стандартному отклонению разницы между двумя группами. Когда данные предварительно обрабатываются с использованием логарифмического преобразования, как мы обычно делаем в экспериментах с HTS, SSMD - это среднее значение логарифмического изменения кратности, деленное на стандартное отклонение логарифмического изменения кратности относительно отрицательного эталона. Другими словами, SSMD - это среднее кратное изменение (в логарифмической шкале), за которое уплачивается вариативность кратного изменения (в логарифмической шкале). Для контроля качества одним из показателей качества анализа HTS является величина разницы между положительным контролем и отрицательным эталоном в аналитическом планшете. Для выбора совпадения размер эффектов соединения (то есть небольшой молекулы или миРНК ) представлен величиной разницы между соединением и отрицательным эталоном. SSMD напрямую измеряет величину разницы между двумя группами. Таким образом, SSMD может использоваться как для контроля качества, так и для отбора попаданий в экспериментах HTS.

Контроль качества

Количество лунок для положительного и отрицательного контролей в планшете на 384-луночной или 1536-луночной платформе обычно рассчитывается достаточно большим. Предположим, что положительный и отрицательный контроли в планшете имеют среднее значение выборки, дисперсию выборки и размер выборки . Обычно выполняется предположение, что элементы управления имеют одинаковую дисперсию в тарелке. В таком случае SSMD для оценки качества в этой пластине оценивается как ${\ displaystyle {\ bar {X}} _ {P}, {\ bar {X}} _ {N}}$ ${\ displaystyle s_ {P} ^ {2}, s_ {N} ^ {2}}$ ${\ displaystyle n_ {P}, n_ {N}}$

{\ displaystyle {\ hat {\ beta}} = {\ frac {{\ bar {X}} _ {P} - {\ bar {X}} _ {N}} {\ sqrt {{\ frac {2}) {K}} ((n_ {P} -1) s_ {P} ^ {2} + (n_ {N} -1) s_ {N} ^ {2})}}},}

где . Когда предположение о равной дисперсии не выполняется, SSMD для оценки качества в этой пластине оценивается как ${\ Displaystyle К \ приблизительно n_ {P} + n_ {N} -3,48}$

{\ displaystyle {\ hat {\ beta}} = {\ frac {{\ bar {X}} _ {P} - {\ bar {X}} _ {N}} {\ sqrt {s_ {P} ^ { 2} + s_ {N} ^ {2}}}}.}

Если в элементах управления явно наблюдаются выбросы , SSMD можно оценить как

{\ displaystyle {\ hat {\ beta}} = {\ frac {{\ tilde {X}} _ {P} - {\ tilde {X}} _ {N}} {1.4826 {\ sqrt {{\ tilde { s}} _ {P} ^ {2} + {\ tilde {s}} _ {N} ^ {2}}}}},}

где - медианы и медианы абсолютных отклонений в положительном и отрицательном контроле соответственно. ${\ displaystyle {\ tilde {X}} _ {P}, {\ tilde {X}} _ {N}, {\ tilde {s}} _ {P}, {\ tilde {s}} _ {N} }$

Z-фактор , критерий , основанный КК широко используется в HTS анализы. Однако было продемонстрировано, что этот критерий контроля качества наиболее подходит для анализа с очень или очень сильными положительными контролями. В анализе RNAi HTS сильный или умеренный положительный контроль обычно более поучителен, чем очень или чрезвычайно сильный положительный контроль, потому что эффективность этого контроля больше похожа на интересующие совпадения. Кроме того, положительные контроли в двух экспериментах с HTS теоретически имеют разные размеры эффектов. Следовательно, пороги QC для умеренного контроля должны отличаться от пороговых значений для сильного контроля в этих двух экспериментах. Кроме того, обычно в одном эксперименте принимают два или более положительных контроля. Применение одних и тех же критериев контроля качества на основе Z-фактора для обоих контролей приводит к противоречивым результатам, как показано в литературе.

Критерии контроля качества на основе SSMD, перечисленные в следующей таблице, учитывают величину эффекта положительного контроля в анализе HTS, где положительный контроль (такой как контроль ингибирования) теоретически имеет значения меньше, чем отрицательный контроль.

Тип качества	A: умеренный контроль	B: сильный контроль	C: очень сильный контроль	D: Чрезвычайно сильный контроль
Превосходно	${\ displaystyle \ beta \ leq -2}$	${\ displaystyle \ beta \ leq -3}$	${\ displaystyle \ beta \ leq -5}$	${\ displaystyle \ beta \ leq -7}$
Хороший	${\ displaystyle -2 <\ beta \ leq -1}$	${\ displaystyle -3 <\ beta \ leq -2}$	${\ displaystyle -5 <\ beta \ leq -3}$	${\ displaystyle -7 <\ beta \ leq -5}$
Низший	${\ displaystyle -1 <\ beta \ leq -0,5}$	${\ displaystyle -2 <\ beta \ leq -1}$	${\ displaystyle -3 <\ beta \ leq -2}$	${\ displaystyle -5 <\ beta \ leq -3}$
Бедных	${\ displaystyle \ beta> -0,5}$	${\ displaystyle \ beta> -1}$	${\ displaystyle \ beta> -2}$	${\ displaystyle \ beta> -3}$

При применении, если величина эффекта положительного контроля известна биологически, примите соответствующий критерий на основе этой таблицы. В противном случае следующая стратегия должна помочь определить, какой критерий QC следует применять: (i) во многих анализах низкомолекулярных HTS с одним положительным контролем, обычно следует применять критерий D (а иногда и критерий C), потому что этот контроль обычно очень или чрезвычайно сильные эффекты; (ii) для тестов RNAi HTS, в которых жизнеспособность клеток является измеренным ответом, критерий D должен быть принят для контролей без клеток (а именно, лунок без добавленных клеток) или фоновых контролей; (iii) в вирусном анализе, в котором количество вирусов в клетках-хозяевах представляет интерес, обычно используется критерий C, а критерий D иногда используется для положительного контроля, состоящего из siRNA вируса.

Подобные критерии контроля качества на основе SSMD могут быть построены для анализа HTS, где положительный контроль (такой как контроль активации) теоретически имеет значения, превышающие отрицательный эталон. Более подробную информацию о том, как применять критерии контроля качества на основе SSMD в экспериментах с HTS, можно найти в книге.

Выбор хита

В HTS-анализе одной из основных целей является выбор соединений с желаемым размером ингибирующего или активирующего эффекта. Величина эффекта соединения представлена величиной разницы между тестируемым соединением и отрицательной контрольной группой без каких-либо специфических эффектов ингибирования / активации. Соединение с желаемым размером эффектов в экране HTS называется ударом. Процесс выбора совпадений называется выбором совпадений. Есть две основные стратегии выбора хитов с большими эффектами. Один из них заключается в использовании определенных показателей для ранжирования и / или классификации соединений по их эффектам, а затем для выбора наибольшего числа сильнодействующих соединений, которые практичны для проверочных анализов . Другая стратегия - проверить, обладает ли соединение достаточно сильным действием, чтобы достичь заданного уровня. В этой стратегии необходимо контролировать частоту ложноотрицательных (FNR) и / или ложноположительных (FPR).

SSMD может не только ранжировать размер эффектов, но и классифицировать эффекты, как показано в следующей таблице, на основе значения совокупности ( ) SSMD. ${\ displaystyle \ beta}$

Подтип эффекта	Пороги для отрицательного SSMD	Пороги для положительного SSMD
Чрезвычайно сильный	${\ displaystyle \ beta \ leq -5}$	${\ displaystyle \ beta \ geq 5}$
Очень сильный	${\ displaystyle -5 <\ beta \ leq -3}$	${\ displaystyle 5> \ beta \ geq 3}$
Сильный	${\ displaystyle -3 <\ beta \ leq -2}$	${\ displaystyle 3> \ beta \ geq 2}$
Довольно сильный	${\ displaystyle -2 <\ beta \ leq -1.645}$	${\ displaystyle 2> \ beta \ geq 1.645}$
Умеренный	${\ displaystyle -1.645 <\ beta \ leq -1.28}$	${\ displaystyle 1.645> \ beta \ geq 1.28}$
Довольно умеренный	${\ displaystyle -1,28 <\ beta \ leq -1}$	${\ displaystyle 1.28> \ beta \ geq 1}$
Довольно слабый	${\ Displaystyle -1 <\ бета \ leq -0,75}$	${\ displaystyle 1> \ beta \ geq 0,75}$
Слабый	${\ displaystyle -0,75 <\ beta <-0,5}$	${\ displaystyle 0,75> \ beta> 0,5}$
Очень слаб	${\ displaystyle -0,5 \ leq \ beta <-0,25}$	${\ displaystyle 0,5 \ geq \ beta> 0,25}$
Крайне слаб	${\ displaystyle -0.25 \ leq \ beta <0}$	${\ displaystyle 0.25 \ geq \ beta> 0}$
Нет эффекта	${\ displaystyle \ beta = 0}$

Оценка SSMD для экранов без реплик отличается от оценки для экранов с репликами.

На первичном скрининге без повторов, предполагая, что измеренное значение (обычно в логарифмической шкале) в лунке для тестируемого соединения равно, а отрицательный эталон в этом планшете имеет размер образца, среднее значение образца , медианное значение , стандартное отклонение и среднее абсолютное отклонение , SSMD для этого соединения оценивается как ${\ displaystyle X_ {i}}$ ${\ displaystyle n_ {N}}$ ${\ displaystyle {\ bar {X}} _ {N}}$ ${\ displaystyle {\ tilde {X}} _ {N}}$ ${\ displaystyle s_ {N}}$ ${\ displaystyle {\ tilde {s}} _ {N}}$

{\ displaystyle {\ text {SSMD}} = {\ frac {X_ {i} - {\ bar {X}} _ {N}} {s_ {N} {\ sqrt {2 (n_ {N} -1) / K}}}},}

где . Когда в анализе есть выбросы , которые обычно характерны для экспериментов HTS, надежную версию SSMD можно получить, используя ${\ displaystyle K \ приблизительно n_ {N} -2,48}$

{\ displaystyle {\ text {SSMD *}} = {\ frac {X_ {i} - {\ tilde {X}} _ {N}} {1.4826 {\ tilde {s}} _ {N} {\ sqrt { 2 (n_ {N} -1) / K}}}}}

В подтверждающем или первичном скрининге с повторениями для i-го тестируемого соединения с повторениями мы вычисляем парную разницу между измеренным значением (обычно в логарифмической шкале) соединения и средним значением отрицательного контроля в планшете. затем получите среднее значение и дисперсию парной разницы по повторам. SSMD для этого соединения оценивается как ${\ displaystyle n}$ ${\ displaystyle {\ bar {d}} _ {i}}$ ${\ displaystyle s_ {i} ^ {2}}$

{\ displaystyle {\ text {SSMD}} = {\ frac {\ Gamma ({\ frac {n-1} {2}})} {\ Gamma ({\ frac {n-2} {2}})} } {\ sqrt {\ frac {2} {n-1}}} {\ frac {{\ bar {d}} _ {i}} {s_ {i}}}}

Во многих случаях ученые могут использовать как SSMD, так и среднее кратное изменение для выбора попаданий в экспериментах HTS. График с двойным фонариком может отображать как среднее кратное изменение, так и SSMD для всех тестируемых соединений в анализе и помогает объединить их оба для выбора совпадений в экспериментах с HTS. Использование SSMD для выбора попаданий в экспериментах HTS шаг за шагом проиллюстрировано в

Смотрите также

дальнейшее чтение

Чжан XHD (2011) «Оптимальный высокопроизводительный скрининг: практический экспериментальный план и анализ данных для исследования РНКи в масштабе генома, Cambridge University Press»

Languages

In other projects