Категориальная переменная - Categorical variable

В статистике , А категориальная переменная (также называемая качественная переменная ) является переменной , которая может принимать одно из ограниченного, и обычно фиксирована, число возможных значений, назначение каждого отдельного или другую единицу наблюдения к определенной группе или номинальной категории на основа какого-то качественного имущества . В информатике и некоторых разделах математики категориальные переменные называются перечислениями или перечисляемыми типами . Обычно (хотя и не в этой статье) каждое из возможных значений категориальной переменной упоминается как уровень . Распределение вероятностей, связанное со случайной категориальной переменной, называется категориальным распределением .

Категориальные данные - это тип статистических данных, состоящий из категориальных переменных или данных, которые были преобразованы в эту форму, например, как сгруппированные данные . Более конкретно, категориальные данные могут быть получены из наблюдений, сделанных на основе качественных данных , которые суммированы в виде подсчетов или перекрестных таблиц , или из наблюдений за количественными данными, сгруппированными в заданные интервалы. Часто чисто категориальные данные сводятся в виде таблицы непредвиденных обстоятельств . Однако, особенно при рассмотрении анализа данных, обычно используется термин «категориальные данные» для применения к наборам данных, которые, хотя и содержат некоторые категориальные переменные, могут также содержать некатегориальные переменные.

Категориальная переменная, которая может принимать ровно два значения, называется двоичной переменной или дихотомической переменной ; важным частным случаем является переменная Бернулли . Категориальные переменные с более чем двумя возможными значениями называются политомическими переменными ; категориальные переменные часто считаются политомическими, если не указано иное. Дискретизация - это обработка непрерывных данных, как если бы они были категориальными. Дихотомизация - это обработка непрерывных данных или политомических переменных, как если бы они были двоичными переменными. Регрессионный анализ часто рассматривает принадлежность к категории с помощью одной или нескольких количественных фиктивных переменных .

Примеры категориальных переменных

Примеры значений, которые могут быть представлены в категориальной переменной:

  • Бросок шестигранного кубика: возможные исходы: 1,2,3,4,5 или 6.
  • Демографические данные населения: пол, статус болезни.
  • Группа крови человека: A, B, AB или O.
  • Политическая партия , что избиратель может голосовать за е. грамм. Партия зеленых , христианский демократ , социал-демократ и т. Д.
  • Тип породы: магматическая , осадочная или метаморфическая .
  • Идентичность конкретного слова (например, в языковой модели ): Один из V возможных вариантов, для словаря размера V .

Обозначение

Для облегчения статистической обработки категориальным переменным могут быть присвоены числовые индексы, например, от 1 до K для категориальной переменной K-типа (то есть переменной, которая может выражать точно K возможных значений). В целом, однако, числа произвольны и не имеют никакого значения, кроме простого предоставления удобной метки для определенного значения. Другими словами, значения категориальной переменной существуют в номинальном масштабе : каждое из них представляет собой логически отдельную концепцию, не обязательно может быть осмысленно упорядочено , и им нельзя иначе манипулировать, как числами. Вместо этого допустимыми операциями являются эквивалентность , членство в множестве и другие операции, связанные с множеством.

В результате центральная тенденция набора категориальных переменных определяется его режимом ; ни среднее значение, ни медиана не могут быть определены. В качестве примера для набора людей мы можем рассмотреть набор категориальных переменных, соответствующих их фамилиям. Мы можем рассмотреть такие операции, как эквивалентность (имеют ли два человека одинаковую фамилию), установить членство (есть ли у человека имя в данном списке), подсчет (сколько людей имеет данную фамилию) или поиск режима ( какое имя встречается чаще всего). Однако мы не можем осмысленно вычислить «сумму» Смита + Джонсона или спросить, является ли Смит «меньше» или «больше» Джонсона. В результате мы не можем осмысленно спрашивать, какое «среднее имя» (среднее значение) или «среднее имя» (медиана) входит в набор имен.

Обратите внимание, что при этом игнорируется концепция алфавитного порядка , которая является свойством, которое присуще не самим именам, а способу построения меток. Например, если мы напишем имена кириллицей и рассмотрим кириллический порядок букв, мы можем получить другой результат вычисления «Smith <Johnson», чем если бы мы написали имена стандартным латинским алфавитом ; и если мы напишем имена китайскими иероглифами , мы вообще не сможем осмысленно оценить «Smith <Johnson», потому что для таких символов не определен согласованный порядок. Однако, если мы действительно рассматриваем имена в том виде, в каком они написаны, например, в латинском алфавите, и определяем порядок, соответствующий стандартному алфавитному порядку, то мы эффективно преобразовываем их в порядковые переменные, определенные на порядковой шкале .

Количество возможных значений

Категориальные случайные переменные обычно описываются статистически категориальным распределением , которое позволяет выражать произвольную категориальную переменную K-типа с отдельными вероятностями, указанными для каждого из K возможных исходов. Такие категориальные переменные с несколькими категориями часто анализируются с использованием полиномиального распределения , которое подсчитывает частоту каждой возможной комбинации количества появлений различных категорий. Регрессионный анализ категориальных исходов осуществляется с помощью полиномиальной логистической регрессии , полиномиального пробита или родственной модели дискретного выбора .

Категориальные переменные, которые имеют только два возможных результата (например, «да» против «нет» или «успех» против «неудачи»), известны как бинарные переменные (или переменные Бернулли ). Из-за их важности эти переменные часто считаются отдельной категорией с отдельным распределением ( распределение Бернулли ) и отдельными моделями регрессии ( логистическая регрессия , пробит-регрессия и т. Д.). В результате термин «категориальная переменная» часто зарезервирован для случаев с 3 или более исходами, иногда называемых многосторонней переменной в отличие от двоичной переменной.

Также можно рассматривать категориальные переменные, где количество категорий не фиксировано заранее. Например, для категориальной переменной, описывающей конкретное слово, мы можем не знать заранее размер словаря, и мы хотели бы допустить возможность встретить слова, которые мы еще не видели. Стандартные статистические модели, такие как модели с категориальным распределением и полиномиальной логистической регрессией , предполагают, что количество категорий известно заранее, а изменение количества категорий на лету - непростая задача. В таких случаях необходимо использовать более продвинутые методы. Примером может служить процесс Дирихле , относящийся к сфере непараметрической статистики . В таком случае логически предполагается, что существует бесконечное количество категорий, но в любой момент времени большинство из них (фактически все, кроме конечного числа) никогда не были замечены. Все формулы сформулированы в терминах количества категорий, фактически просмотренных на данный момент, а не (бесконечного) общего количества существующих потенциальных категорий, и создаются методы для постепенного обновления статистических распределений, включая добавление «новых» категорий.

Категориальные переменные и регрессия

Категориальные переменные представляют собой качественный метод оценки данных (т. Е. Представляют категории или членство в группах). Они могут быть включены как независимые переменные в регрессионный анализ или как зависимые переменные в логистической регрессии или пробит-регрессии , но должны быть преобразованы в количественные данные , чтобы иметь возможность анализировать данные. Это достигается с помощью систем кодирования. Анализы проводятся так, что кодируется только g -1 ( g - количество групп). Это минимизирует избыточность, по-прежнему представляя полный набор данных, поскольку при кодировании общих групп g не будет получена дополнительная информация : например, при кодировании пола (где g = 2: мужской и женский), если мы будем кодировать только женщин, все оставшиеся будут обязательно должны быть кобелями. В общем, группа, для которой не кодируется, является наименее интересной.

При анализе категориальных переменных в регрессии обычно используются три основные системы кодирования: фиктивное кодирование, кодирование эффектов и кодирование контраста. Уравнение регрессии принимает форму Y = bX + a , где b - наклон и дает вес, эмпирически присвоенный объяснителю, X - объясняющая переменная, а a - Y- перехват , и эти значения принимают разные значения в зависимости от об используемой системе кодирования. Выбор системы кодирования не влияет на статистику F или R 2 . Однако каждый выбирает систему кодирования на основе представляющего интерес сравнения, поскольку интерпретация значений b будет различаться.

Фиктивное кодирование

Фиктивное кодирование используется, когда имеется в виду контрольная группа или группа сравнения. Таким образом, анализируются данные одной группы по отношению к группе сравнения: a представляет собой среднее значение контрольной группы, а b - разность между средним значением экспериментальной группы и средним значением контрольной группы. Предлагается выполнить три критерия для определения подходящей контрольной группы: группа должна быть устоявшейся группой (например, не должна быть «другой» категорией), должна быть логическая причина для выбора этой группы для сравнения ( например, ожидается, что группа получит наивысший балл по зависимой переменной), и, наконец, размер выборки группы должен быть существенным и не маленьким по сравнению с другими группами.

При фиктивном кодировании контрольной группе присваивается значение 0 для каждой кодовой переменной, интересующей группе для сравнения с контрольной группой присваивается значение 1 для ее указанной кодовой переменной, в то время как всем другим группам присваивается 0 для этой конкретной кодовая переменная.

Значения b следует интерпретировать так, чтобы экспериментальную группу сравнивали с контрольной группой. Следовательно, получение отрицательного значения b приведет к тому, что экспериментальная группа получит меньше, чем контрольная группа, по зависимой переменной . Чтобы проиллюстрировать это, предположим, что мы измеряем оптимизм среди нескольких национальностей и решили, что французы будут служить полезным средством контроля. Если мы сравниваем их с итальянцами и наблюдаем отрицательное значение b , это говорит о том, что итальянцы в среднем получают более низкие оценки оптимизма.

В следующей таблице приведен пример фиктивного кодирования с французским в качестве контрольной группы и кодами C1, C2 и C3 соответственно для итальянского , немецкого и других языков (ни французского, ни итальянского, ни немецкого):

Национальность C1 C2 C3
французкий язык 0 0 0
Итальянский 1 0 0
Немецкий 0 1 0
Другой 0 0 1

Кодирование эффектов

В системе кодирования эффектов данные анализируются путем сравнения одной группы со всеми другими группами. В отличие от фиктивного кодирования, здесь нет контрольной группы. Скорее, сравнение проводится по среднему значению всех групп, вместе взятых ( а теперь является общим средним ). Следовательно, человек ищет данные не по отношению к другой группе, а, скорее, по отношению к общему среднему значению.

Кодирование эффектов может быть взвешенным или невзвешенным. Кодирование взвешенных эффектов - это просто вычисление взвешенного общего среднего с учетом размера выборки по каждой переменной. Это наиболее уместно в ситуациях, когда выборка является репрезентативной для рассматриваемого населения. Кодирование невзвешенных эффектов наиболее целесообразно в ситуациях, когда различия в размере выборки являются результатом случайных факторов. Интерпретация b различна для каждого из них: при кодировании невзвешенных эффектов b - это разница между средним значением экспериментальной группы и общим средним, тогда как во взвешенной ситуации это среднее значение экспериментальной группы за вычетом взвешенного общего среднего.

При кодировании эффектов мы кодируем интересующую группу цифрой 1, как и при фиктивном кодировании. Принципиальное отличие состоит в том, что мы кодируем −1 для группы, которая нас меньше всего интересует. Поскольку мы продолжаем использовать схему кодирования g - 1, на самом деле именно кодированная группа −1 не будет производить данные, отсюда и тот факт, что мы меньше всего интересуются этой группой. Всем остальным группам присваивается код 0.

Значения b следует интерпретировать так, чтобы экспериментальная группа сравнивалась со средним значением всех групп вместе (или взвешенным общим средним в случае кодирования взвешенных эффектов). Следовательно, получение отрицательного значения b приведет к тому, что закодированная группа получит меньше, чем среднее значение всех групп по зависимой переменной. Используя наш предыдущий пример оценок оптимизма среди национальностей, если группа интересов - итальянцы, наблюдение отрицательного значения b предполагает, что они получают более низкий балл оптимизма.

В следующей таблице приведен пример кодирования эффектов, когда Other является наименее интересной группой.

Национальность C1 C2 C3
французкий язык 0 0 1
Итальянский 1 0 0
Немецкий 0 1 0
Другой −1 −1 −1

Контрастное кодирование

Система контрастного кодирования позволяет исследователю напрямую задавать конкретные вопросы. Вместо того, чтобы система кодирования диктовала, что проводится сравнение (т. Е. С контрольной группой, как при фиктивном кодировании, или со всеми группами, как при кодировании эффектов), можно разработать уникальное сравнение, отвечающее конкретному вопросу исследования. Эта адаптированная гипотеза обычно основана на предыдущей теории и / или исследованиях. Предлагаемые гипотезы обычно следующие: во-первых, есть центральная гипотеза, которая постулирует большое различие между двумя наборами групп; вторая гипотеза предполагает, что внутри каждого набора различия между группами невелики. С помощью своих априорных гипотез сосредоточено, контраст кодирования может привести к увеличению мощности от статистического теста по сравнению с менее направленными предыдущими системами кодирования.

Определенные различия возникают, когда мы сравниваем наши априорные коэффициенты между ANOVA и регрессией. В отличие от использования в ANOVA, где исследователь по усмотрению выбирает значения коэффициентов, которые являются ортогональными или неортогональными, в регрессии важно, чтобы значения коэффициентов, присвоенные при контрастном кодировании, были ортогональными. Кроме того, в регрессии значения коэффициентов должны быть либо в дробной, либо в десятичной форме. Они не могут принимать интервальные значения.

Построение контрастных кодов ограничивается тремя правилами:

  1. Сумма коэффициентов контрастности для каждой переменной кода должна равняться нулю.
  2. Разница между суммой положительных коэффициентов и суммой отрицательных коэффициентов должна равняться 1.
  3. Кодированные переменные должны быть ортогональными.

Нарушение правила 2 дает точные значения R 2 и F , указывая на то, что мы могли бы прийти к одним и тем же выводам о том, есть ли существенная разница; однако мы больше не можем интерпретировать значения b как среднюю разницу.

Чтобы проиллюстрировать построение кодов контраста, рассмотрим следующую таблицу. Коэффициенты были выбраны, чтобы проиллюстрировать наши априорные гипотезы: Гипотеза 1: французы и итальянцы будут иметь больший оптимизм, чем немцы (французы = +0,33, итальянцы = +0,33, немцы = -0,66). Это проиллюстрировано присвоением одного и того же коэффициента французской и итальянской категориям и другого - немцам. Присвоенные знаки указывают направление взаимоотношений (следовательно, отрицательный знак немцев свидетельствует об их более низких предполагаемых оценках оптимизма). Гипотеза 2: ожидается, что французы и итальянцы различаются по своим показателям оптимизма (французский = +0,50, итальянский = -0,50, немецкий = 0). Здесь присвоение немцам нулевого значения демонстрирует их невключение в анализ этой гипотезы. Опять же, присвоенные знаки указывают на предполагаемую взаимосвязь.

Национальность C1 C2
французкий язык +0,33 +0,50
Итальянский +0,33 -0,50
Немецкий -0,66 0

Глупое кодирование

Бессмысленное кодирование происходит, когда вместо обозначенных «0», «1» и «-1» используются произвольные значения, которые использовались в предыдущих системах кодирования. Несмотря на то, что он дает правильные средние значения для переменных, использование бессмысленного кодирования не рекомендуется, поскольку это приведет к неинтерпретируемым статистическим результатам.

Вложения

Вложения - это кодирование категориальных значений в многомерные вещественные (иногда комплексные ) векторные пространства, обычно таким образом, что `` сходным '' значениям присваиваются `` похожие '' векторы, или по отношению к какому-либо другому критерию, определяющему векторы, полезные для соответствующего приложения. Распространенным частным случаем являются вложения слов , где возможные значения категориальной переменной - это слова на языке, а словам с аналогичными значениями должны быть назначены аналогичные векторы.

Взаимодействия

Взаимодействие может возникнуть при рассмотрении вопроса о взаимосвязи между тремя или более переменных, а также описывает ситуацию , в которой одновременное воздействие двух переменных на треть не является аддитивным. Взаимодействия могут возникать с категориальными переменными двумя способами: либо категориальными посредством взаимодействий категориальных переменных, либо категориальными посредством взаимодействий с непрерывными переменными.

Категориальные по взаимодействию с категориальными переменными

Этот тип взаимодействия возникает, когда у нас есть две категориальные переменные. Чтобы исследовать этот тип взаимодействия, можно было бы использовать систему, наиболее подходящую для гипотезы исследователя. Продукт кодов дает взаимодействие. Затем можно вычислить значение b и определить, является ли взаимодействие значимым.

Категориальные по непрерывным взаимодействиям переменных

Простой анализ наклонов - это распространенный апостериорный тест, используемый в регрессии, который похож на простой анализ эффектов в ANOVA, используемый для анализа взаимодействий. В этом тесте мы исследуем простые наклоны одной независимой переменной при определенных значениях другой независимой переменной. Такой тест не ограничивается использованием непрерывных переменных, но может также применяться, когда независимая переменная является категориальной. Мы не можем просто выбрать значения для проверки взаимодействия, как в случае с непрерывной переменной, из-за номинального характера данных (т. Е. В непрерывном случае можно было бы анализировать данные на высоком, умеренном и низком уровнях, присвоив 1 стандартное отклонение. выше среднего, на среднее значение и на одно стандартное отклонение ниже среднего соответственно). В нашем категориальном случае мы использовали бы простое уравнение регрессии для каждой группы, чтобы исследовать простые наклоны. Обычной практикой является стандартизация или центрирование переменных, чтобы сделать данные более интерпретируемыми при простом анализе уклонов; однако категориальные переменные никогда не следует стандартизировать или центрировать. Этот тест можно использовать со всеми системами кодирования.

Смотрите также

использованная литература

дальнейшее чтение