Статистика Хопкинса - Hopkins statistic

Статистики Хопкинс (введено Брайан Хопкинс и Джон Гордон Skellam ) является способом измерения кластера тенденции набора данных. Он принадлежит к семейству тестов с разреженной выборкой. Он действует как проверка статистической гипотезы, где нулевая гипотеза состоит в том, что данные генерируются точечным процессом Пуассона и, таким образом, равномерно распределены случайным образом. Значение, близкое к 1, обычно указывает на то, что данные сильно кластеризованы, случайные данные обычно приводят к значениям около 0,5, а равномерно распределенные данные имеют тенденцию приводить к значениям, близким к 0.

Предварительные мероприятия

Типичная формулировка статистики Хопкинса приводится ниже.

Позвольте быть набором точек данных.

{\ displaystyle X}

{\ displaystyle n}

Рассмотрим случайную выборку (без замены) точек данных с членами .

{\ displaystyle m \ ll n}

{\ displaystyle x_ {i}}

Сформировать набор из равномерно распределенных случайным образом точек данных.

{\ displaystyle Y}

{\ displaystyle m}

Определите две меры расстояния,

{\ displaystyle u_ {i},}

расстояние от ближайшего соседа в , и

{\ displaystyle y_ {i} \ in Y}

{\ displaystyle X}

{\ displaystyle w_ {i},}

расстояние числа случайно выбранных от ближайшего соседа в .

{\ displaystyle m}

{\ displaystyle x_ {i},}

{\ displaystyle x_ {i} \ in X}

{\ displaystyle X}

Определение

В приведенных выше обозначениях, если данные размерны, то статистика Хопкинса определяется как: ${\ displaystyle d}$

${\ displaystyle H = {\ frac {\ sum _ {i = 1} ^ {m} {u_ {i} ^ {d}}} {\ sum _ {i = 1} ^ {m} {u_ {i} ^ {d}} + \ sum _ {i = 1} ^ {m} {w_ {i} ^ {d}}}} \,}$

При нулевых гипотезах эта статистика имеет распределение Beta (m, m).

Примечания и ссылки

^ Хопкинс, Брайан; Скеллам, Джон Гордон (1954). «Новый метод определения типа распространения растительных особей». Летопись ботаники . Annals Botany Co. 18 (2): 213–227.
^ ^а ^б Банерджи, А. (2004). «Проверка кластеров с использованием статистики Хопкинса». Международная конференция IEEE по нечетким системам : 149–153. DOI : 10.1109 / FUZZY.2004.1375706 .
^ Аггарваль, Чара C. (2015). Data Mining . Чам: Издательство Springer International. п. 158. DOI : 10.1007 / 978-3-319-14142-8 . ISBN 978-3-319-14141-1 .
^ Крест, GR; Джайн, АК (1982). «Измерение тенденции кластеризации». Теория и применение цифрового управления : 315-320. DOI : 10.1016 / B978-0-08-027618-2.50054-1 .

Внешние ссылки

http://www.sthda.com/english/wiki/assessing-clustering-tendency-a-vital-issue-unsupervised-machine-learning

[1] Хопкинс, Брайан; Скеллам, Джон Гордон (1954). «Новый метод определения типа распространения растительных особей». Летопись ботаники . Annals Botany Co. 18 (2): 213–227.

[banerjee04-2] а ^б Банерджи, А. (2004). «Проверка кластеров с использованием статистики Хопкинса». Международная конференция IEEE по нечетким системам : 149–153. DOI : 10.1109 / FUZZY.2004.1375706 .

[3] Аггарваль, Чара C. (2015). Data Mining . Чам: Издательство Springer International. п. 158. DOI : 10.1007 / 978-3-319-14142-8 . ISBN 978-3-319-14141-1 .

[4] Крест, GR; Джайн, АК (1982). «Измерение тенденции кластеризации». Теория и применение цифрового управления : 315-320. DOI : 10.1016 / B978-0-08-027618-2.50054-1 .

Languages

In other projects

Статистика Хопкинса - Hopkins statistic

СОДЕРЖАНИЕ

Предварительные мероприятия

Определение

Примечания и ссылки

Внешние ссылки