Дизайн экспериментов - Design of experiments

План экспериментов с полным факторным планом (слева), поверхность отклика с полиномом второй степени (справа)

План экспериментов ( DOE , DOX или экспериментальный план ) - это план любой задачи, целью которой является описание и объяснение вариации информации в условиях, которые, как предполагается, отражают вариацию. Этот термин обычно ассоциируется с экспериментами, в план которых вводятся условия, которые непосредственно влияют на вариацию, но также может относиться к плану квази-экспериментов , в которых для наблюдения выбираются естественные условия, влияющие на вариацию.

В своей простейшей форме эксперимент направлен на предсказание результата путем введения изменения предварительных условий, которое представлено одной или несколькими независимыми переменными , также называемыми «входными переменными» или «переменными-предикторами». Обычно предполагается, что изменение одной или нескольких независимых переменных приводит к изменению одной или нескольких зависимых переменных , также называемых «выходными переменными» или «переменными отклика». План эксперимента может также определять контрольные переменные, которые должны оставаться постоянными, чтобы внешние факторы не влияли на результаты. Планирование эксперимента включает не только выбор подходящих независимых, зависимых и управляющих переменных, но и планирование проведения эксперимента в статистически оптимальных условиях с учетом ограничений доступных ресурсов. Существует несколько подходов к определению набора проектных точек (уникальных комбинаций настроек независимых переменных), которые будут использоваться в эксперименте.

Основные проблемы в экспериментальном дизайне включают установление достоверности , надежности и воспроизводимости . Например, эти проблемы могут быть частично решены путем тщательного выбора независимой переменной, снижения риска ошибки измерения и обеспечения достаточной детализации документации по методу. Связанные с этим проблемы включают достижение соответствующих уровней статистической мощности и чувствительности .

Правильно спланированные эксперименты расширяют знания в области естественных, социальных и инженерных наук. Другие приложения включают маркетинг и разработку политики. Изучение плана экспериментов - важная тема в метанауке .

История

Статистические эксперименты по Чарльзу С. Пирсу

Теория статистического вывода была развита Чарльзом С. Пирсом в « Иллюстрациях логики науки » (1877–1878) и « Теории вероятного вывода » (1883), двух публикациях, в которых подчеркивалась важность вывода на основе рандомизации в статистика.

Рандомизированные эксперименты

Ч.Пирс рандомизирован добровольцы в слепом , дизайн повторных измерений , чтобы оценить их способность различать веса. Эксперимент Пирса вдохновил других исследователей в области психологии и образования, которые в 1800-х годах развили исследовательскую традицию рандомизированных экспериментов в лабораториях и специализированных учебниках.

Оптимальные планы для регрессионных моделей

Чарльз С. Пирс также внес первую англоязычную публикацию по оптимальному плану для регрессионных моделей в 1876 году. Новаторский оптимальный план для полиномиальной регрессии был предложен Жергонном в 1815 году. В 1918 году Кирстин Смит опубликовала оптимальные планы для полиномов шестой степени ( и менее).

Последовательности экспериментов

Использование последовательности экспериментов, дизайн каждого из которых может зависеть от результатов предыдущих экспериментов, включая возможное решение прекратить эксперименты, находится в рамках последовательного анализа , области, которая была впервые введена Абрахамом Вальдом в контексте последовательные проверки статистических гипотез. Герман Чернофф написал обзор оптимальных последовательных планов, в то время как адаптивные планы были рассмотрены С. Заксом. Одним из специфических типов последовательного дизайна является «двурукий бандит», обобщенный до многорукого бандита , ранняя работа над которым была проделана Гербертом Роббинсом в 1952 году.

Принципы Фишера

Методология планирования экспериментов была предложена Рональдом Фишером в его новаторских книгах «Организация полевых экспериментов» (1926 г.) и « План экспериментов» (1935 г.). Большая часть его новаторских работ была связана с применением статистических методов в сельском хозяйстве. В качестве повседневного примера он описал, как проверить гипотезу дамы, пробующей чай, о том , что некая дама может различать только по вкусу, было ли сначала помещено в чашку молоко или чай. Эти методы широко используются в биологических, психологических и сельскохозяйственных исследованиях.

Сравнение
В некоторых областях исследований невозможно провести независимые измерения в соответствии с прослеживаемым метрологическим стандартом . Сравнения между видами лечения гораздо более ценны и, как правило, предпочтительнее и часто сравниваются с научным контролем или традиционным лечением, которое действует как исходный.
Рандомизация
Случайное распределение - это процесс случайного распределения людей по группам или разным группам в эксперименте, чтобы каждый человек из популяции имел одинаковые шансы стать участником исследования. Случайное распределение людей по группам (или условиям внутри группы) отличает строгий, «истинный» эксперимент от наблюдательного исследования или «квазиэксперимента». Существует обширная математическая теория, в которой исследуются последствия распределения единиц для лечения с помощью некоторого случайного механизма (такого как таблицы случайных чисел или использование устройств рандомизации, таких как игральные карты или игральные кости). Присвоение единиц лечения наугад имеет тенденцию смягчать искажение , в результате чего эффекты, обусловленные другими факторами, помимо лечения, кажутся результатом лечения.
Риски, связанные со случайным распределением (например, наличие серьезного дисбаланса ключевой характеристики между экспериментальной и контрольной группой), поддаются расчету и, следовательно, могут быть снижены до приемлемого уровня с использованием достаточного количества экспериментальных единиц. Однако, если популяция разделена на несколько субпопуляций, которые так или иначе различаются, и исследование требует, чтобы каждая субпопуляция была равной по размеру, можно использовать стратифицированную выборку. Таким образом, рандомизируются единицы в каждой подгруппе, но не вся выборка. Результаты эксперимента могут быть надежно обобщены от экспериментальных единиц к большей статистической совокупности единиц только в том случае, если экспериментальные единицы являются случайной выборкой из большей совокупности; вероятная ошибка такой экстраполяции зависит, среди прочего, от размера выборки.
Статистическая репликация
Измерения обычно подвержены вариациям и неточности измерений ; таким образом, они повторяются, и полные эксперименты воспроизводятся, чтобы помочь идентифицировать источники вариаций, лучше оценить истинные эффекты лечения, еще больше повысить надежность и достоверность эксперимента и добавить к существующим знаниям по теме. Однако перед началом повторения эксперимента должны быть соблюдены определенные условия: исходный вопрос исследования был опубликован в рецензируемом журнале или широко цитируется, исследователь не зависит от исходного эксперимента, исследователь должен сначала попытаться воспроизвести оригинальные результаты с использованием исходных данных, и в описании должно быть указано, что проведенное исследование является повторным исследованием, в котором пытались как можно точнее следовать оригинальному исследованию.
Блокировка
Блокировка - это неслучайное объединение экспериментальных единиц в группы (блоки), состоящие из единиц, похожих друг на друга. Блокирование уменьшает известные, но не относящиеся к делу источники вариации между единицами и, таким образом, позволяет повысить точность оценки источника исследуемой вариации.
Ортогональность
Пример ортогонального факторного плана
Ортогональность касается форм сравнения (контрастов), которые могут быть законно и эффективно выполнены. Контрасты могут быть представлены векторами, а наборы ортогональных контрастов некоррелированы и независимо распределяются, если данные нормальные. Из-за этой независимости каждое ортогональное лечение предоставляет разную информацию другим. Если есть T обработок и ортогональные контрасты T - 1, вся информация, которая может быть получена из эксперимента, может быть получена из набора контрастов.
Факторные эксперименты
Использование факторных экспериментов вместо однофакторного метода. Они эффективны при оценке эффектов и возможных взаимодействий нескольких факторов (независимых переменных). Анализ плана эксперимента построен на основе дисперсионного анализа , набора моделей, которые разделяют наблюдаемую дисперсию на компоненты, в соответствии с какими факторами эксперимент должен оценивать или проверять.

Пример

Balance à tabac 1850.JPG

Этот пример дизайнерских экспериментов приписывается Гарольду Хотеллингу на основе примеров Фрэнка Йейтса . Эксперименты, разработанные в этом примере, включают комбинаторные планы .

Вес восьми предметов измеряется с помощью весов и набора стандартных гирь. При каждом взвешивании измеряется разница в весе между объектами на левой чашке и любыми объектами на правой чаше весов путем добавления откалиброванных гирь к более легкой чаше до тех пор, пока весы не придут в равновесие. Каждое измерение имеет случайную ошибку . Средняя ошибка равна нулю; на стандартные отклонения по распределению вероятности ошибок совпадает с номером σ на различных взвешиваний; ошибки на разных взвешиваниях независимы . Обозначим истинные веса через

Мы рассматриваем два разных эксперимента:

  1. Взвесьте каждый объект в одной чаше, а другая - пустой. Пусть X i - измеренный вес объекта для i = 1, ..., 8.
  2. Выполните восемь взвешиваний по следующему графику и пусть Y i будет измеренной разницей для i = 1, ..., 8:
Тогда оценочное значение веса θ 1 равно
Аналогичные оценки можно найти для веса других предметов. Например

Вопрос в планировании экспериментов: какой эксперимент лучше?

Дисперсия оценки X 1 для θ 1 равна σ 2, если мы используем первый эксперимент. Но если мы используем второй эксперимент, дисперсия оценки , приведенной выше является σ 2 /8. Таким образом, второй эксперимент дает нам в 8 раз большую точность для оценки одного элемента и оценивает все элементы одновременно с той же точностью. То, что достигается во втором эксперименте с восемью, потребует 64 взвешивания, если предметы взвешиваются отдельно. Однако обратите внимание, что оценки для пунктов, полученные во втором эксперименте, имеют ошибки, которые коррелируют друг с другом.

Многие задачи планирования экспериментов связаны с комбинаторными планами , как в этом и других примерах.

Как избежать ложных срабатываний

Ложноположительные выводы, часто возникающие из-за давления с целью публикации или предвзятости самого автора , являются неотъемлемой опасностью во многих областях. Хороший способ предотвратить систематические ошибки, потенциально ведущие к ложным срабатываниям на этапе сбора данных, - это использовать двойной слепой дизайн. Когда используется двойной слепой дизайн, участники случайным образом распределяются по экспериментальным группам, но исследователь не знает, какие участники к какой группе принадлежат. Следовательно, исследователь не может повлиять на реакцию участников на вмешательство. Проблемой являются экспериментальные конструкции с неизвестными степенями свободы. Это может привести к сознательному или бессознательному « р-хакингу »: пробовать несколько вещей, пока не получишь желаемый результат. Обычно это связано с манипулированием - возможно, бессознательным - процессом статистического анализа и степенями свободы до тех пор, пока они не вернут значение ниже уровня статистической значимости p <0,05. Таким образом, план эксперимента должен включать четкое заявление, предлагающее провести анализ. P-взлом можно предотвратить, предварительно зарегистрировав исследования, в которых исследователи должны отправить свой план анализа данных в журнал, в котором они хотят опубликовать свою статью, еще до того, как они начнут сбор данных, поэтому манипуляции с данными невозможны ( https: // osf .io ). Еще один способ предотвратить это - применить метод двойного слепого анализа к фазе анализа данных, когда данные отправляются аналитику данных, не имеющему отношения к исследованию, который собирает данные, поэтому нет возможности узнать, к каким участникам раньше принадлежать. они потенциально могут быть исключены как выбросы.

Ясная и полная документация экспериментальной методологии также важна для поддержки воспроизведения результатов.

Темы для обсуждения при настройке экспериментального дизайна

План эксперимента или рандомизированное клиническое испытание требует тщательного рассмотрения нескольких факторов, прежде чем фактически проводить эксперимент. План эксперимента - это разработка подробного плана эксперимента перед проведением эксперимента. Некоторые из следующих тем уже обсуждались в разделе принципов экспериментального проектирования:

  1. Сколько факторов имеет план и являются ли уровни этих факторов фиксированными или случайными?
  2. Нужны ли условия контроля и какими они должны быть?
  3. Проверки манипуляции; действительно ли манипуляция сработала?
  4. Какие фоновые переменные?
  5. Каков размер выборки. Сколько единиц необходимо собрать, чтобы эксперимент был обобщаемым и имел достаточную мощность ?
  6. Какое значение имеет взаимодействие между факторами?
  7. Какое влияние на результаты оказывают отсроченные эффекты основных факторов?
  8. Как изменение ответа влияет на самооценку?
  9. Насколько возможно повторное применение одних и тех же измерительных инструментов в одних и тех же отделениях в разных случаях с проведением послетестовых и последующих тестов?
  10. А как насчет использования предварительного тестирования прокси?
  11. Есть ли скрытые переменные?
  12. Должен ли клиент / пациент, исследователь или даже аналитик данных не обращать внимания на условия?
  13. Какова возможность последующего применения разных условий к одним и тем же объектам?
  14. Сколько каждого фактора контроля и шума следует принимать во внимание?

Независимая переменная в исследовании часто имеет много уровней или разных групп. В настоящем эксперименте исследователи могут иметь экспериментальную группу, в которой реализуется их вмешательство, проверяющее гипотезу, и контрольную группу, которая имеет тот же элемент, что и экспериментальная группа, без элемента вмешательства. Таким образом, если все остальное, кроме одного вмешательства, остается неизменным, исследователи могут с некоторой уверенностью подтвердить, что именно этот элемент вызвал наблюдаемое изменение. В некоторых случаях наличие контрольной группы неэтично. Иногда это решается с помощью двух разных экспериментальных групп. В некоторых случаях независимыми переменными нельзя манипулировать, например, при тестировании разницы между двумя группами, у которых разное заболевание, или тестировании разницы между полами (очевидно, переменные, которые было бы трудно или неэтично назначать участникам). В этих случаях может использоваться квазиэкспериментальный план.

Причинная атрибуция

В чисто экспериментальном дизайне независимой (предикторной) переменной манипулирует исследователь, то есть каждый участник исследования выбирается случайным образом из совокупности, и каждый выбранный участник случайным образом назначается условиям независимой переменной. Только когда это будет сделано, можно с высокой вероятностью подтвердить, что причина различий в переменных результата вызвана различными условиями. Следовательно, исследователи должны по возможности предпочитать экспериментальный план другим типам дизайна. Однако природа независимой переменной не всегда допускает манипуляции. В таких случаях исследователи должны знать, что нельзя сертифицировать причинно-следственную связь, если их дизайн не позволяет этого. Например, в планах наблюдения участники не распределяются по условиям случайным образом, и поэтому, если есть различия, обнаруженные в переменных результата между условиями, вполне вероятно, что есть нечто иное, чем различия между условиями, которые вызывают различия в результатах, что is - третья переменная. То же самое и с исследованиями с корреляционным дизайном. (Адер и Мелленберг, 2008 г.).

Статистический контроль

Лучше всего, чтобы процесс находился под разумным статистическим контролем до проведения запланированных экспериментов. Когда это невозможно, правильная блокировка, репликация и рандомизация позволяют тщательно проводить запланированные эксперименты. Чтобы контролировать мешающие переменные, исследователи вводят контрольные проверки в качестве дополнительных мер. Исследователи должны убедиться, что неконтролируемые влияния (например, восприятие достоверности источника) не искажают результаты исследования. Проверка манипуляции является один примером контрольной проверки. Проверки манипуляций позволяют исследователям изолировать главные переменные, чтобы усилить поддержку того, что эти переменные работают в соответствии с планом.

Одним из наиболее важных требований к планам экспериментальных исследований является необходимость устранения эффектов ложных , промежуточных и предшествующих переменных . В самой базовой модели причина (X) ведет к следствию (Y). Но может существовать третья переменная (Z), которая влияет на (Y), а X может быть вовсе не истинной причиной. Говорят, что Z является ложной переменной, и ее необходимо контролировать. То же самое верно для промежуточных переменных (переменная между предполагаемой причиной (X) и следствием (Y)) и предшествующих переменных (переменная, предшествующая предполагаемой причине (X), которая является истинной причиной). Когда задействована третья переменная, которая не контролируется, отношение называется отношением нулевого порядка . В большинстве практических применений планов экспериментальных исследований существует несколько причин (X1, X2, X3). В большинстве проектов одновременно обрабатывается только одна из этих причин.

Экспериментальные разработки по Фишеру

Некоторые эффективные планы для оценки нескольких основных эффектов были независимо и почти последовательно найдены Раджем Чандрой Бозом и К. Кишеном в 1940 году в Индийском статистическом институте , но оставались малоизвестными до тех пор, пока планы Плакетта-Бермана не были опубликованы в Biometrika в 1946 году. В то же время CR Rao представил концепции ортогональных массивов в качестве экспериментальных схем. Эта концепция играет центральную роль в разработке методов Тагучи по Тагути , который проходил во время своего визита в Индийском статистическом институт в начале 1950 - х лет. Его методы были успешно применены и приняты промышленными предприятиями Японии и Индии, а впоследствии были приняты промышленностью США, хотя и с некоторыми оговорками.

В 1950 году Гертруда Мэри Кокс и Уильям Джеммелл Кокран опубликовали книгу Experimental Designs, которая на долгие годы стала основным справочником по планированию экспериментов для статистиков.

Развитие теории линейных моделей охватило и превзошло случаи, которые волновали ранних писателей. Сегодня теория опирается на продвинутые темы линейной алгебры , алгебры и комбинаторики .

Как и в случае с другими отраслями статистики, экспериментальный план осуществляется с использованием как частотного, так и байесовского подходов: при оценке статистических процедур, таких как экспериментальные планы, частотная статистика изучает распределение выборки, в то время как байесовская статистика обновляет распределение вероятностей в пространстве параметров.

Некоторые важный вклад в области экспериментальных конструкций Пирса , Р. А. Фишер , Ф. Йейтс , RC Bose , AC Аткинсон , Р. А. Бейли , Д. Р. Кокса , Геп Box , WG Cochran , WT Федерера , В. В. Федоров , А.С. Хедайят , J. Кифер , О. Кемпторн , Дж. А. Нелдер , Андрей Пазман , Фридрих Пукельсхайм , Д. Рагхаварао , С. Р. Рао , Шрикханде СС , Дж. Н. Шривастава , Уильям Дж. Студден , Г. Тагучи и HP Wynn .

Учебники Д. Монтгомери, Р. Майерса и Г. Бокса / W. Хантер / Дж. С. Хантер достигли поколения студентов и практиков.

Некоторое обсуждение экспериментального дизайна в контексте идентификации системы (построение модели для статических или динамических моделей) приведено в и

Ограничения участника-человека

Законы и этические соображения исключают возможность проведения некоторых тщательно продуманных экспериментов с людьми. Правовые ограничения зависят от юрисдикции . Ограничения могут включать институциональные наблюдательные советы , информированное согласие и конфиденциальность, влияющие как на клинические (медицинские) испытания, так и на поведенческие и социальные исследования. В области токсикологии, например, проводятся эксперименты на лабораторных животных с целью определения безопасных пределов воздействия для человека . Уравновешивание ограничений - взгляды из области медицины. Что касается рандомизации пациентов, «... если никто не знает, какая терапия лучше, нет этического императива использовать ту или иную терапию». (стр. 380) Что касается дизайна эксперимента, «... явно неэтично подвергать субъектов риску для сбора данных в плохо спланированном исследовании, когда этой ситуации можно легко избежать ...». (стр.393)

Смотрите также

использованная литература

Источники

  • Пирс, CS (1877–1878), «Иллюстрации логики науки» (серия), Popular Science Monthly , тт. 12–13. Соответствующие отдельные документы:
    • (1878 март), "Учение о шансах", Popular Science в месяц , v. 12, выпуск март, стр. 604 -615. Интернет-архив Eprint .
    • (1878 апрель), "Вероятность Induction", Popular Science в месяц , т. 12, стр. 705 -718. Интернет-архив Eprint .
    • (1878 июнь), "Орден природы", Popular Science в месяц , т. 13, стр. 203 -217. Интернет-архив Eprint .
    • (1878 август), "дедукция, индукция и гипотеза", Popular Science в месяц , т. 13, стр. 470 -482. Интернет-архив Eprint .
    • (1883), "Теория вероятного вывода", Исследования по логике , стр. 126–181 , Little, Brown, and Company. (Перепечатано в 1983 г., издательство John Benjamins Publishing Company, ISBN  90-272-3271-7 )

внешние ссылки