Вариация информации - Variation of information
В теории вероятностей и теории информации , то изменение информации или общей информация расстоянии является мерой расстояния между двумя кластеризациями ( перегородками элементов ). Это тесно связано с взаимной информацией ; действительно, это простое линейное выражение, включающее взаимную информацию. Однако, в отличие от взаимной информации, вариация информации является истинной метрикой , поскольку подчиняется неравенству треугольника .
Определение
Предположим , у нас есть два раздела и из множества на непересекающиеся подмножества , а именно и .
Позволять:
- а также
Тогда разброс информации между двумя разделами будет следующим:
- .
Это эквивалентно разделенному информационному расстоянию между случайными величинами i и j по отношению к равномерной вероятностной мере, определенной с помощью for .
Явное информационное содержание
Мы можем переписать это определение в терминах, которые явно выделяют информационное содержание этой метрики.
Множество всех разбиений набора образуют компактную Решетку, где частичный порядок индуцирует две операции, соединение и соединение , где максимум - это разделение только с одним блоком, то есть со всеми элементами, сгруппированными вместе, а минимум - это раздел, состоящий из всех элементов как одиночных. Встреча двух разделов, и это легко понять как раздел, образованный всеми парами пересечений одного блока,, of и одного ,, of . Из этого следует, что и .
Определим энтропию раздела как
- ,
где . Понятно, и . Энтропия разбиения является монотонной функцией на решетке разбиений в том смысле, что .
Тогда расстояние VI между и определяется выражением
- .
Разница - это псевдометрика, которая не обязательно подразумевает это . По определению , это так .
Если на диаграмме Хассе мы нарисуем край от каждого раздела до максимума и присвоим ему вес, равный расстоянию VI между данным разделом и , мы можем интерпретировать расстояние VI как в основном среднее значение разностей весов ребер до максимума.
- .
Поскольку, как определено выше, считается, что совместная информация двух разделов совпадает с энтропией встречи
и у нас также есть то, что совпадает с условной энтропией встречи (пересечения) относительно .
Идентичности
Разнообразие информации удовлетворяет
- ,
где это энтропия из , и является взаимной информации между и с относительно равномерной вероятностной меры на . Это можно переписать как
- ,
где есть совместная энтропия в и , или
- ,
где и - соответствующие условные энтропии .
Разнообразие информации также может быть ограничено числом элементов:
- ,
Или относительно максимального количества кластеров :
Рекомендации
дальнейшее чтение
- Arabie, P .; Бурман, С.А. (1973). «Многомерное масштабирование мер расстояния между перегородками». Журнал математической психологии . 10 (2): 148–203. DOI : 10.1016 / 0022-2496 (73) 90012-6 .
- Мейла, Марина (2003). «Сравнение кластеризации по вариативности информации». Теория обучения и ядерные машины . Конспект лекций по информатике. 2777 : 173–187. DOI : 10.1007 / 978-3-540-45167-9_14 . ISBN 978-3-540-40720-1.
- Мейла, М. (2007). «Сравнение кластеризации - расстояние, основанное на информации» . Журнал многомерного анализа . 98 (5): 873–895. DOI : 10.1016 / j.jmva.2006.11.013 .
- Кингсфорд, Карл (2009). «Информационные заметки по теории» (PDF) . Проверено 22 сентября 2009 года .
- Красков Александр; Харальд Штегбауэр; Ральф Дж. Анджеяк; Питер Грассбергер (2003). «Иерархическая кластеризация на основе взаимной информации». arXiv : q-bio / 0311039 .
Внешние ссылки
- Partanalyzer включает реализацию VI на C ++ и другие метрики и индексы для анализа разделов и кластеров.
- Реализация C ++ с файлами MATLAB mex