Гистограмма - Histogram

Гистограмма
Гистограмма приходов за минуту.svg
Один из семи основных инструментов качества
Впервые описано Карл Пирсон
Цель Для грубой оценки распределения вероятности данной переменной путем отображения частоты наблюдений, происходящих в определенных диапазонах значений.

Гистограмма является приближенным представлением распределения числовых данных. Впервые он был представлен Карлом Пирсоном . Чтобы построить гистограмму, первый шаг - это « бин » (или « сегмент ») диапазона значений, то есть разделение всего диапазона значений на серию интервалов, а затем подсчет количества значений, попадающих в каждый интервал. Бины обычно задаются как последовательные неперекрывающиеся интервалы переменной. Бины (интервалы) должны быть смежными и часто (но не обязательно) одинакового размера.

Если ячейки имеют одинаковый размер, над ячейкой возводится прямоугольник с высотой, пропорциональной частоте - количеству наблюдений в каждой ячейке. Гистограмма также может быть нормализована для отображения «относительных» частот. Затем он показывает долю случаев, которые попадают в каждую из нескольких категорий , с суммой высот, равной 1.

Однако бункеры не обязательно должны быть одинаковой ширины; в этом случае возведенный прямоугольник определяется так, чтобы его площадь была пропорциональна частоте случаев в бункере. Тогда по вертикальной оси отложена не частота, а плотность частоты - количество наблюдений на единицу переменной на горизонтальной оси. Примеры переменной ширины ячеек показаны ниже в данных бюро переписи.

Поскольку соседние интервалы не оставляют промежутков, прямоугольники гистограммы касаются друг друга, чтобы указать, что исходная переменная является непрерывной.

Гистограммы дают приблизительное представление о плотности основного распределения данных, и часто для оценки плотности : оценки функции плотности вероятности основной переменной. Общая площадь гистограммы, используемой для плотности вероятности, всегда нормализуется к 1. Если длина интервалов на оси x равна 1, то гистограмма идентична графику относительной частоты .

Гистограмму можно рассматривать как упрощенную оценку плотности ядра , которая использует ядро для сглаживания частот по ячейкам. Это дает более гладкую функцию плотности вероятности, которая в целом будет более точно отражать распределение базовой переменной. Оценка плотности может быть построена в качестве альтернативы гистограмме и обычно отображается в виде кривой, а не набора прямоугольников. Тем не менее гистограммы предпочтительны в приложениях, когда необходимо моделировать их статистические свойства. Коррелированное изменение оценки плотности ядра очень сложно описать математически, в то время как это просто для гистограммы, где каждый интервал изменяется независимо.

Альтернативой оценке плотности ядра является гистограмма со смещением среднего значения, которую можно быстро вычислить и которая дает оценку плотности сглаженной кривой без использования ядер.

Гистограмма - один из семи основных инструментов контроля качества .

Гистограммы иногда путают с гистограммами. Гистограмма используется для непрерывных данных , где ячейки представляют собой диапазоны данных, а гистограмма представляет собой график категориальных переменных . Некоторые авторы рекомендуют, чтобы между прямоугольниками гистограммы были промежутки, чтобы прояснить различие.

Примеры

Это данные для гистограммы справа, используя 500 элементов:

Пример histogram.png
Бункер / интервал Количество / частота
От −3,5 до −2,51 9
От −2,5 до −1,51 32
От −1,5 до −0,51 109
От -0,5 до 0,49 180
От 0,5 до 1,49 132
От 1,5 до 2,49 34
От 2,5 до 3,49 4

Для описания паттернов на гистограмме используются следующие слова: «симметричный», «наклон влево» или «вправо», «одномодальный», «бимодальный» или «мультимодальный».

Чтобы узнать о них больше, рекомендуется построить график данных с использованием нескольких интервалов разной ширины. Вот пример чаевых, даваемых в ресторане.

Бюро переписи населения США обнаружили , что там было 124 миллионов людей , которые работают за пределами своих домов. Используя их данные о времени, затраченном на поездки на работу, в таблице ниже показано абсолютное количество людей, которые ответили, что время в пути «не менее 30, но менее 35 минут» выше, чем цифры для категорий выше и ниже. Вероятно, это связано с тем, что люди округляют указанное время в пути. Проблема представления значений как несколько произвольно округленных чисел - обычное явление при сборе данных от людей.

Гистограмма времени в пути (на работу), перепись США 2000 года. Площадь под кривой равна общему количеству случаев. На этой диаграмме используется значение Q / ширина из таблицы.
Данные в абсолютных числах
Интервал Ширина Количество Количество / ширина
0 5 4180 836
5 5 13687 2737
10 5 18618 3723
15 5 19634 3926
20 5 17981 3596
25 5 7190 1438
30 5 16369 3273
35 год 5 3212 642
40 5 4122 824
45 15 9200 613
60 30 6461 215
90 60 3435 57 год

Эта гистограмма показывает количество наблюдений на единицу интервала как высоту каждого блока, так что площадь каждого блока равна количеству людей в опросе, которые попадают в его категорию. Площадь под кривой представляет общее количество случаев (124 миллиона). Этот тип гистограммы показывает абсолютные числа с Q в тысячах.

Гистограмма времени в пути (на работу), перепись США 2000 года. Площадь под кривой равна 1. На этой диаграмме используются значения Q / total / width из таблицы.
Данные по пропорциям
Интервал Ширина Количество (Q) Q / всего / ширина
0 5 4180 0,0067
5 5 13687 0,0221
10 5 18618 0,0300
15 5 19634 0,0316
20 5 17981 0,0290
25 5 7190 0,0116
30 5 16369 0,0264
35 год 5 3212 0,0052
40 5 4122 0,0066
45 15 9200 0,0049
60 30 6461 0,0017
90 60 3435 0,0005

Эта гистограмма отличается от первой только вертикальным масштабом. Площадь каждого блока - это доля от общей суммы, которую представляет каждая категория, а общая площадь всех полосок равна 1 (дробь означает «все»). Отображаемая кривая представляет собой простую оценку плотности . Эта версия показывает пропорции и также известна как гистограмма единичной площади.

Другими словами, гистограмма представляет распределение частот с помощью прямоугольников, ширина которых представляет интервалы классов, а площади пропорциональны соответствующим частотам: высота каждого из них является средней плотностью частот для интервала. Интервалы помещены вместе, чтобы показать, что данные, представленные гистограммой, хоть и не являются исключениями, но также являются смежными. (Например, на гистограмме могут быть два соединяющих интервала 10,5–20,5 и 20,5–33,5, но не два соединительных интервала 10,5–20,5 и 22,5–32,5. Пустые интервалы представлены как пустые и не пропущенные.)

Математические определения

Обычная и кумулятивная гистограммы одних и тех же данных. Показанные данные представляют собой случайную выборку из 10000 точек нормального распределения со средним значением 0 и стандартным отклонением 1.

Данные, используемые для построения гистограммы, генерируются с помощью функции m i, которая подсчитывает количество наблюдений, попадающих в каждую из непересекающихся категорий (известных как интервалы ). Таким образом, если мы позволим n быть общим количеством наблюдений, а k - общим количеством интервалов, данные гистограммы m i будут соответствовать следующим условиям:

Накопительная гистограмма

Кумулятивная гистограмма - это отображение, которое подсчитывает совокупное количество наблюдений во всех интервалах до указанного интервала. То есть совокупная гистограмма M i гистограммы m j определяется как:

Количество бункеров и ширина

Не существует «наилучшего» количества ячеек, и разные размеры ячеек могут выявить разные особенности данных. Группировка данных по крайней мере так же стара, как работа Граунта в 17 веке, но никаких систематических указаний не давалось до работы Стерджеса в 1926 году.

Использование более широких интервалов с низкой плотностью базовых точек данных снижает шум из-за случайности выборки; использование более узких интервалов с высокой плотностью (поэтому сигнал заглушает шум) дает большую точность оценки плотности. Таким образом, изменение ширины бина в гистограмме может быть полезным. Тем не менее, бункеры одинаковой ширины широко используются.

Некоторые теоретики пытались определить оптимальное количество интервалов, но эти методы обычно делают строгие предположения о форме распределения. В зависимости от фактического распределения данных и целей анализа может потребоваться разная ширина бина, поэтому для определения подходящей ширины обычно необходимы эксперименты. Однако существуют различные полезные рекомендации и практические правила.

Количество бункеров k может быть назначено напрямую или может быть рассчитано исходя из предложенной ширины бункера  h как:

Подтяжки указывают на функцию потолка .

Выбор квадратного корня

который извлекает квадратный корень из числа точек данных в выборке (используется гистограммами Excel и многими другими) и округляется до следующего целого числа .

Формула Стерджеса

Формула Стерджеса выводится из биномиального распределения и неявно предполагает приблизительно нормальное распределение.

Формула Стерджеса неявно основывает размеры ячеек на диапазоне данных и может плохо работать, если n  <30 , потому что количество ячеек будет небольшим - менее семи - и вряд ли будет хорошо отображать тенденции в данных. С другой стороны, формула Стерджеса может переоценить ширину бина для очень больших наборов данных, что приведет к чрезмерному сглаживанию гистограмм. Он также может работать плохо, если данные не распределяются нормально.

По сравнению с правилом Скотта и правилом Террелла-Скотта, двумя другими широко распространенными формулами для интервалов гистограмм, результат формулы Стерджеса наиболее близок, когда n ≈ 100 .

Правило Райса

Правило Райса представлено как простая альтернатива правилу Стерджеса.

Формула Доана

Формула Доана - это модификация формулы Стерджеса, которая пытается улучшить ее производительность с использованием нестандартных данных.

где - оценочная асимметрия распределения по 3-м моментам, а

Нормальное эталонное правило Скотта

Ширина бункера определяется выражением

где - стандартное отклонение выборки . Нормальное эталонное правило Скотта оптимально для случайных выборок нормально распределенных данных в том смысле, что оно минимизирует интегрированную среднеквадратичную ошибку оценки плотности.

Выбор Фридмана – Диакониса

Правило Фридмана-Diaconis дает ширину ячейки , как:

который основан на межквартильном диапазоне , обозначаемом IQR. Он заменяет 3,5σ правила Скотта на 2 IQR, что менее чувствительно, чем стандартное отклонение к выбросам в данных.

Минимизация расчетной квадратичной ошибки перекрестной проверки

Этот подход минимизации интегрированной среднеквадратичной ошибки из правила Скотта может быть обобщен за пределы нормальных распределений с помощью перекрестной проверки с исключением одного:

Здесь - количество точек данных в k- м бине, и выбор значения h, которое минимизирует J , минимизирует интегрированную среднеквадратичную ошибку.

Выбор Симадзаки и Шиномото

Выбор основан на минимизации оценочной функции риска L 2.

где и - средняя и смещенная дисперсия гистограммы с шириной интервала , и .

Регулируемая ширина бункера

Вместо того, чтобы выбирать равномерно расположенные бункеры, для некоторых приложений предпочтительнее изменять ширину бункера. Это позволяет избежать мусорных баков с низким счетчиком. Распространенным случаем является выбор равновероятных интервалов , когда ожидается, что количество выборок в каждом интервале будет примерно одинаковым. Бины могут быть выбраны в соответствии с некоторым известным распределением или могут быть выбраны на основе данных, так что в каждом бине есть выборки. При построении гистограммы в качестве зависимой оси используется частотная плотность . Хотя все интервалы имеют примерно одинаковую площадь, высота гистограммы приблизительно соответствует распределению плотности.

Для равновероятных бункеров предлагается следующее правило количества бункеров:

Этот выбор интервалов мотивирован максимизацией мощности критерия хи-квадрат Пирсона, проверяющего, действительно ли интервалы содержат одинаковое количество выборок. Более конкретно, для данного доверительного интервала рекомендуется выбрать от 1/2 до 1 раза следующее уравнение:

Где это пробит функция. Следуя этому правилу, for даст между и ; коэффициент 2 выбран как легко запоминающееся значение из этого широкого оптимума.

Замечание

Хорошая причина, по которой количество бинов должно быть пропорционально, заключается в следующем: предположим, что данные получены как независимые реализации ограниченного распределения вероятностей с гладкой плотностью. Тогда гистограмма остается столь же «неровной», как и стремящаяся к бесконечности. Если это «ширина» распределения (например, стандартное отклонение или межквартильный диапазон), то количество единиц в ячейке (частота) имеет порядок, а относительная стандартная ошибка порядка . По сравнению со следующим интервалом относительное изменение частоты имеет порядок при условии, что производная плотности не равна нулю. Эти двое принадлежат к одному и тому же порядку, если они в порядке , так что это в порядке . Этот простой выбор кубического корня также может применяться к ячейкам с непостоянной шириной.

Гистограмма и функция плотности для распределения Гамбеля

Приложения

Смотрите также

использованная литература

дальнейшее чтение

  • Ланкастер, Х.О. Введение в медицинскую статистику. Джон Уайли и сыновья. 1974. ISBN  0-471-51250-8.

внешние ссылки