Вариация информации - Variation of information

В теории вероятностей и теории информации , то изменение информации или общей информация расстоянии является мерой расстояния между двумя кластеризациями ( перегородками элементов ). Это тесно связано с взаимной информацией ; действительно, это простое линейное выражение, включающее взаимную информацию. Однако, в отличие от взаимной информации, вариация информации является истинной метрикой , поскольку подчиняется неравенству треугольника .

Информационная диаграмма, иллюстрирующая связь между информационными энтропиями , взаимной информацией и вариациями информации.

Определение

Предположим , у нас есть два раздела и из множества на непересекающиеся подмножества , а именно и .

Позволять:

а также

Тогда разброс информации между двумя разделами будет следующим:

.

Это эквивалентно разделенному информационному расстоянию между случайными величинами i и j по отношению к равномерной вероятностной мере, определенной с помощью for .

Явное информационное содержание

Мы можем переписать это определение в терминах, которые явно выделяют информационное содержание этой метрики.

Множество всех разбиений набора образуют компактную Решетку, где частичный порядок индуцирует две операции, соединение и соединение , где максимум - это разделение только с одним блоком, то есть со всеми элементами, сгруппированными вместе, а минимум - это раздел, состоящий из всех элементов как одиночных. Встреча двух разделов, и это легко понять как раздел, образованный всеми парами пересечений одного блока,, of и одного ,, of . Из этого следует, что и .

Определим энтропию раздела как

,

где . Понятно, и . Энтропия разбиения является монотонной функцией на решетке разбиений в том смысле, что .

Тогда расстояние VI между и определяется выражением

.

Разница - это псевдометрика, которая не обязательно подразумевает это . По определению , это так .

Если на диаграмме Хассе мы нарисуем край от каждого раздела до максимума и присвоим ему вес, равный расстоянию VI между данным разделом и , мы можем интерпретировать расстояние VI как в основном среднее значение разностей весов ребер до максимума.

.

Поскольку, как определено выше, считается, что совместная информация двух разделов совпадает с энтропией встречи

и у нас также есть то, что совпадает с условной энтропией встречи (пересечения) относительно .

Идентичности

Разнообразие информации удовлетворяет

,

где это энтропия из , и является взаимной информации между и с относительно равномерной вероятностной меры на . Это можно переписать как

,

где есть совместная энтропия в и , или

,

где и - соответствующие условные энтропии .

Разнообразие информации также может быть ограничено числом элементов:

,

Или относительно максимального количества кластеров :

Рекомендации

дальнейшее чтение

Внешние ссылки