Нормативное исследование - Standard-setting study

Стандартное исследование - это официальное исследование, проводимое организацией, спонсирующей тесты, для определения баллов по результатам теста. Чтобы иметь юридическую защиту в США, в частности, для оценок с высокими ставками , и соответствовать стандартам образовательного и психологического тестирования , оценка не может быть определена произвольно; это должно быть обосновано эмпирически. Например, организация не может просто решить, что оценка будет правильной на 70%. Вместо этого проводится исследование, чтобы определить, какой балл лучше всего различает классификации испытуемых, например, компетентный или некомпетентный. Такие исследования требуют значительных ресурсов с привлечением ряда профессионалов, в частности, с психометрическим образованием. По этой причине исследования по установлению стандартов непрактичны для обычных учебных аудиторий, однако на каждом уровне образования устанавливаются стандарты и существует множество методов.

Стандартные исследования обычно проводятся с использованием фокус-групп из 5-15 экспертов в предметной области, которые представляют ключевые заинтересованные стороны для тестирования. Например, при установке сокращенных баллов для образовательного тестирования эксперты могут быть инструкторами, знакомыми с возможностями учащихся для прохождения теста.

Типы нормативных исследований

Исследования по установлению стандартов делятся на две категории: ориентированные на предметы и ориентированные на человека. Примеры методов, ориентированных на элементы, включают методы Angoff, Ebel, Nedelsky, Bookmark и ID Matching, в то время как примеры методов, ориентированных на человека, включают подходы Borderline Survey и Contrasting Groups. Они так категоризированы по фокусу анализа; В исследованиях, ориентированных на элементы, организация оценивает элементы по отношению к данной популяции людей, и наоборот, в исследованиях, ориентированных на человека.

Пункт в центре исследования связаны с критерий привязкой тестов и нормы ссылки испытаний .

Исследования, ориентированные на предметы

  • Метод Ангоффа (по заданию ): для этого метода требуется собрать группу экспертов в предметной области (SME), которых просят оценить каждый пункт и оценить долю минимально компетентных испытуемых, которые правильно ответили бы на этот вопрос. Оценки усредняются по каждому пункту, а затем суммируются, чтобы получить рекомендованную комиссией необработанную оценку. Затем этот сокращенный результат представляет собой оценку, которую группа оценивает минимально компетентному кандидату. Это, конечно, зависит от предубеждений, связанных с принятием решений, таких как предвзятость излишней самоуверенности . Предпочтительна калибровка с другими, более объективными источниками данных. Существует несколько вариантов метода.
  • Модифицированный метод Ангоффа (по элементам): эксперты в предметной области обычно информируются о методе Ангоффа и им разрешается пройти тест с учетом уровней производительности. Затем МСП просят предоставить оценки по каждому вопросу доли пограничных или «минимально приемлемых» участников, которые, по их мнению, ответят на вопрос правильно. Как правило, оценки представлены в виде p-значения (например, 0,6 для пункта 1: 60% проходящих границу участников ответили бы на этот вопрос правильно). Как правило, проводится несколько раундов, когда МСП разрешается изменять свои оценки с учетом различных типов информации (например, информации о фактических результатах работы участников по каждому вопросу, других оценок МСП и т. Д.). Затем производится окончательное определение сокращенной оценки (например, путем усреднения оценок или взятия медианы), что часто документируется в отчете вместе с вторичными результатами, такими как межэкспертная надежность или компромисс Беука. Для их расчета обычно используются программы. Этот метод обычно используется с вопросами с несколькими вариантами ответов.
  • Дихотомический модифицированный метод Ангоффа (ориентированный на элемент): в дихотомическом модифицированном подходе Ангоффа вместо использования статистики типа уровня сложности (обычно p-значения) предприятиям малого и среднего бизнеса предлагается просто указать 0/1 для каждого вопроса («0», если погранично приемлемый участник ответит на вопрос неправильно и «1», если погранично приемлемый участник ответит правильно)
  • Метод Недельского (по пунктам): МСП принимают решения по каждому вопросу, в зависимости от того, какие из вопросов, отвлекающих внимание пограничных участников, могли бы исключить как неправильные. Этот метод обычно используется только с вопросами с несколькими вариантами ответов.
  • Метод закладок (по центру элемента): элементы в тесте (или репрезентативном подмножестве элементов) упорядочены по сложности (например, по значению вероятности ответа IRT) от самого простого к самому сложному. SME помещают «закладку» в «буклет с заказанными элементами», чтобы от учащегося, находящегося на пороге уровня успеваемости, можно было ожидать, что он успешно ответит на элементы до закладки с вероятностью, равной или большей, чем указанное значение вероятности ответа. (и с вероятностью меньше этого значения для элементов после закладки). Например, для вероятности ответа 0,67 (RP67) малые и средние предприятия разместят закладку так, чтобы экзаменуемый на пороге уровня успеваемости имел, по крайней мере, 2/3 вероятности успеха по заданиям до закладки и менее 2/3 вероятности успеха для элементов после закладки «Этот метод считается эффективным в отношении установки нескольких оценок сокращения для одного теста и может использоваться с тестами, состоящими из нескольких типов элементов (например, множественный выбор, построение ответа, так далее.).
  • Сопоставление дескриптора элемента (ИД) (по центру элемента): Сопоставление идентификатора (а) сочетает в себе преимущества метода закладок; то есть книгу заказанных заданий и информацию об эмпирической сложности заданий, передаваемую в этом порядке; и (б) гипотетическая более низкая когнитивная сложность и когнитивная нагрузка других методов; то есть не требуется вероятностных суждений, подверженных ошибкам; сопоставление характеристик предметов с характеристиками описаний уровней достижений, что хорошо подходит для людей в целом и, в частности, для знаний и опыта преподавателей; и нет необходимости держать в уме пограничного экзаменуемого при вынесении заключения.

Личностно-ориентированные исследования

В исследованиях, ориентированных на человека, оценивают самих экзаменуемых, а не элементы, по которым выделяются компетентные кандидаты. Хотя это может показаться более подходящим, это часто бывает труднее, потому что экзаменуемые не относятся к неволе, как список предметов. Например, если выходит новый тест на новый контент (как это часто бывает в тестах информационных технологий ), тест может быть проведен для первоначальной выборки, называемой бета-выборкой, вместе с обзором профессиональных характеристик. Затем тестирующая организация может проанализировать и оценить взаимосвязь между результатами тестов и важной статистикой, такой как навыки, образование и опыт. Оценка может быть установлена ​​как оценка, которая лучше всего различает тех экзаменуемых, которых охарактеризовали как «сдавших», и тех, кто «не сдал экзамен».

  • Метод пограничных групп (ориентированный на человека): описание подготовлено для каждой категории эффективности. МСП просят представить список участников, результаты которых на тесте должны быть близки к стандарту производительности (пограничный уровень). Тест проводится для этих пограничных групп, и средний балл теста используется в качестве сокращенного балла. Этот метод можно использовать практически с любым типом вопросов (например, с множественным выбором, множественным ответом, эссе и т. Д.).
  • Метод контрастных групп (ориентированный на человека): МСБ просят распределить участников по классам в соответствии с описанием категорий эффективности. Тест проводится для всех участников, разделенных на категории, и сравниваются распределения результатов теста для каждой из групп, разделенных на категории. Где пересекаются распределения контрастирующих групп, это то место, где будет располагаться сокращенная оценка. Этот метод можно использовать практически с любым типом вопроса (например, с множественным выбором, множественным ответом, эссе и т. Д.).

использованная литература