Многомерное масштабирование - Multidimensional scaling

Пример классического многомерного масштабирования применительно к схемам голосования в Палате представителей США . Каждая красная точка представляет одного члена палаты представителей от республиканцев, а каждая синяя точка - одного демократа.

Многомерное масштабирование ( MDS ) - это средство визуализации уровня схожести отдельных случаев набора данных. MDS используется для перевода «информации о попарных« расстояниях »между набором объектов или людей» в конфигурацию точек, отображаемых в абстрактное декартово пространство .

С технической точки зрения, MDS относится к набору связанных методов ординации , используемых при визуализации информации , в частности, для отображения информации, содержащейся в матрице расстояний . Это форма нелинейного уменьшения размерности .

Учитывая матрицу расстояний с расстояниями между каждой парой объектов в наборе, и выбранного числа измерений, N , МДС алгоритм помещает каждый объект в N - мерном пространстве (низший-мерное представление) , так что между-объекта расстояния сохраняются как можно лучше. Для N = 1, 2 и 3 полученные точки можно визуализировать на диаграмме рассеяния .

Основной теоретический вклад в MDS был сделан Джеймсом О. Рамзи из Университета Макгилла , который также считается основоположником функционального анализа данных .

Типы

Алгоритмы MDS попадают в таксономию в зависимости от значения входной матрицы:

Классическое многомерное масштабирование

Он также известен как анализ основных координат (PCoA), масштабирование Торгерсона или масштабирование Торгерсона – Гауэра. Он принимает входную матрицу, определяющую различия между парами элементов, и выводит координатную матрицу, конфигурация которой минимизирует функцию потерь, называемую деформацией. Например, учитывая евклидовы воздушные расстояния между различными городами, индексированные i и j , вы хотите найти такие координаты городов, что . В этом примере возможно точное решение (при условии, что евклидовы расстояния точны). На практике это обычно не так, и поэтому MDS стремится аппроксимировать представление более низкой размерности, минимизируя функцию потерь. Общие формы функций потерь называются напряжением на расстоянии МДС и деформацией в классической МДС. Деформация задается выражением:, где теперь обозначают векторы в N -мерном пространстве, обозначает скалярное произведение между и , и являются элементами матрицы, определенной на шаге 2 следующего алгоритма, которые вычисляются из расстояний.

Шаги классического алгоритма MDS:
Классическая МДС использует тот факт , что координата матрица может быть получена с помощью собственного значения разложения с . И матрица может быть вычислена из матрицы близости с помощью двойного центрирования.
  1. Настройте квадратную матрицу близости
  2. Примените двойное центрирование: используя
матрицу центрирования , где - количество объектов, является единичной матрицей и является матрицей всех единиц.
  • Определить наибольшие
  • собственные значения и соответствующие собственные векторы из (там , где этого числа измерений требуемых для выхода).
  • Теперь , где есть матрица собственных векторов и является
  • диагональной матрицей из собственных значений .
    Классическая MDS предполагает евклидовы расстояния. Таким образом, это не применимо для оценок прямого несходства.

    Метрическое многомерное масштабирование (mMDS)

    Это надмножество классической MDS, которое обобщает процедуру оптимизации на множество функций потерь и входных матриц известных расстояний с весами и т. Д. Полезная функция потерь в этом контексте называется стрессом , который часто минимизируется с помощью процедуры, называемой мажоризацией стресса . Метрика MDS минимизирует функцию затрат, называемую «стресс», которая представляет собой остаточную сумму квадратов:

    Метрическое масштабирование использует степенное преобразование с управляемой пользователем экспонентой : и для расстояния. В классическом масштабировании . Неметрическое масштабирование определяется использованием изотонической регрессии для непараметрической оценки преобразования различий.

    Неметрическое многомерное масштабирование (nMDS)

    В отличие от метрической MDS, неметрическая MDS находит как непараметрическую монотонную связь между различиями в матрице элемент-элемент и евклидовыми расстояниями между элементами, так и расположением каждого элемента в низкоразмерном пространстве. Взаимосвязь обычно находится с использованием изотонической регрессии : пусть обозначает вектор близости, монотонное преобразование и точечные расстояния; затем необходимо найти координаты, которые минимизируют так называемое напряжение,

    Существует несколько вариантов этой функции затрат. Программы MDS автоматически минимизируют стресс, чтобы получить решение MDS.
    Ядро неметрического алгоритма MDS - это двойной процесс оптимизации. Сначала нужно найти оптимальное монотонное преобразование близости. Во-вторых, точки конфигурации должны быть расположены оптимальным образом, чтобы их расстояния максимально соответствовали масштабируемым близости. Основные шаги неметрического алгоритма MDS:
    1. Найдите случайную конфигурацию точек, например, путем выборки из нормального распределения.
    2. Вычислите расстояния d между точками.
    3. Найдите оптимальное монотонное преобразование близости, чтобы получить оптимально масштабированные данные .
    4. Минимизируйте напряжение между оптимально масштабированными данными и расстояниями, найдя новую конфигурацию точек.
    5. Сравните стресс с каким-либо критерием. Если напряжение достаточно мало, выйдите из алгоритма, иначе вернитесь к 2.

    Анализ наименьшего пространства (SSA) Луи Гуттмана является примером неметрической процедуры MDS.

    Обобщенное многомерное масштабирование (GMD)

    Расширение метрического многомерного масштабирования, в котором целевым пространством является произвольное гладкое неевклидово пространство. В случаях, когда различия - это расстояния на поверхности, а целевое пространство - это другая поверхность, GMDS позволяет найти вложение одной поверхности в другую с минимальным искажением.

    Подробности

    Анализируемые данные - это набор объектов (цвета, лица, приклады и т. Д.), Для которых определена функция расстояния,

    расстояние между -ым и -м объектами.

    Эти расстояния являются элементами матрицы несходства

    Задача MDS состоит в том , чтобы найти такие векторы , что

    для всех ,

    где - векторная норма . В классическом MDS эта норма является евклидовым расстоянием , но, в более широком смысле, это может быть метрическая или произвольная функция расстояния.

    Другими словами, MDS пытается найти отображение объектов в такое, чтобы расстояния сохранялись. Если выбран размер 2 или 3, мы можем построить векторы, чтобы получить визуализацию сходства между объектами. Обратите внимание, что векторы не уникальны: с евклидовым расстоянием они могут произвольно перемещаться, вращаться и отражаться, поскольку эти преобразования не изменяют попарные расстояния .

    (Примечание: символ обозначает набор действительных чисел , а обозначение относится к декартовому произведению копий , которое является -мерным векторным пространством над полем действительных чисел.)

    Существуют различные подходы к определению векторов . Обычно MDS формулируется как задача оптимизации , где находится как минимизатор некоторой функции стоимости, например,

    Затем решение может быть найдено с помощью методов численной оптимизации. Для некоторых специально выбранных функций стоимости минимизаторы могут быть сформулированы аналитически в терминах разложения собственных матриц .

    Процедура

    Проведение исследования МДС состоит из нескольких этапов:

    1. Формулировка проблемы - Какие переменные вы хотите сравнить? Сколько переменных вы хотите сравнить? С какой целью будет использоваться исследование?
    2. Получение исходных данных - Например: - Респондентам задается ряд вопросов. Для каждой пары продуктов их просят оценить сходство (обычно по 7-балльной шкале Лайкерта от очень похожего до очень непохожего). Первый вопрос может быть, например, для Coke / Pepsi, следующий - для рутбива Coke / Hires, следующий - для Pepsi / Dr Pepper, следующий - для rootbeer Dr Pepper / Hires и т. Д. Количество вопросов зависит от количества бренды и могут быть рассчитаны как где Q - количество вопросов, а N - количество брендов. Этот подход называется «Восприятие данных: прямой подход». Есть два других подхода. Существует «Данные восприятия: производный подход», в котором продукты разбиваются на атрибуты, которые оцениваются по шкале семантического дифференциала . Другой - это «подход на основе данных о предпочтениях», при котором респондентов спрашивают о их предпочтениях, а не о сходстве.
    3. Запуск статистической программы MDS - Программное обеспечение для выполнения процедуры доступно во многих пакетах статистического программного обеспечения. Часто есть выбор между Metric MDS (который имеет дело с данными на уровне интервалов или отношений) и Nonmetric MDS (который имеет дело с порядковыми данными).
    4. Определите количество измерений - исследователь должен решить, какое количество измерений он хочет, чтобы компьютер создавал. Интерпретируемость решения MDS часто важна, а решения с более низкой размерностью, как правило, легче интерпретировать и визуализировать. Тем не менее, выбор размеров - это также проблема баланса недостаточного и избыточного оснащения. Решения с более низкой размерностью могут не подходить, если не учитывать важные аспекты данных несходства. Решения с более высокой размерностью могут превосходить шум при измерениях несходства. Таким образом, инструменты выбора модели, такие как AIC / BIC, байесовские факторы или перекрестная проверка, могут быть полезны для выбора размерности, которая уравновешивает недостаточное и избыточное соответствие.
    5. Отображение результатов и определение измерений - статистическая программа (или связанный с ней модуль) отобразит результаты. На карте будет нанесен каждый продукт (обычно в двухмерном пространстве). Близость продуктов друг к другу указывает либо на то, насколько они похожи, либо на то, насколько они предпочтительны, в зависимости от того, какой подход был использован. Однако не всегда очевидно, как размеры вложения на самом деле соответствуют измерениям поведения системы. Здесь можно сделать субъективное суждение о соответствии (см. Картирование восприятия ).
    6. Проверьте результаты на надежность и достоверность - вычислите R-квадрат, чтобы определить, какая доля дисперсии масштабированных данных может быть учтена процедурой MDS. Минимально допустимым уровнем считается R-квадрат 0,6. R-квадрат 0,8 считается хорошим для метрического масштабирования, а 0,9 считается хорошим для неметрического масштабирования. Другими возможными тестами являются стресс-тест Крускала, тесты с разделенными данными, тесты стабильности данных (т. Е. Устранение одной марки) и тест-повторное тестирование надежности.
    7. Отчет о результатах комплексно - Наряду с отображением, по крайней мере , меры расстояния (например, индекс Соренсона , индекс Jaccard ) и надежность (например, значение напряжения) должны быть заполнены . Также очень желательно указать алгоритм (например, Kruskal, Mather), который часто определяется используемой программой (иногда заменяя отчет об алгоритме), если вы указали стартовую конфигурацию или имели случайный выбор, количество прогонов , оценка размерности, результаты метода Монте-Карло , количество итераций, оценка устойчивости и пропорциональная дисперсия каждой оси (r-квадрат).

    Реализации

    • ELKI включает две реализации MDS.
    • MATLAB включает две реализации MDS (для классической ( cmdscale ) и неклассической ( mdscale ) MDS соответственно).
    • Язык программирования R предлагает несколько реализаций MDS.
    • sklearn содержит функцию sklearn.manifold.MDS .

    Смотрите также

    использованная литература

    Библиография

    • Cox, TF; Кокс, MAA (2001). Многомерное масштабирование . Чепмен и Холл.
    • Коксон, Энтони PM (1982). Руководство пользователя по многомерному масштабированию. Особое внимание уделяется библиотеке компьютерных программ MDS (X) . Лондон: Образовательные книги Heinemann.
    • Грин, П. (январь 1975 г.). «Маркетинговые приложения MDS: оценка и перспективы». Журнал маркетинга . 39 (1): 24–31. DOI : 10.2307 / 1250799 . JSTOR  1250799 .
    • МакКьюн, Б. и Грейс, Дж. Б. (2002). Анализ экологических сообществ . Орегон, Гленден-Бич: Разработка программного обеспечения MjM. ISBN 978-0-9721290-0-8.
    • Янг, Форрест В. (1987). Многомерное масштабирование: история, теория и приложения . Лоуренс Эрлбаум Ассошиэйтс. ISBN 978-0898596632.
    • Торгерсон, Уоррен С. (1958). Теория и методы масштабирования . Нью-Йорк: Вили. ISBN 978-0-89874-722-5.