Рейтинг SVM - Ranking SVM

В машинном обучении , Ранжирование SVM является вариантом машины опорных векторов алгоритма, который используется для решения определенных ранжирования проблем (через обучение ранг ). Алгоритм ранжирования SVM был опубликован Торстеном Йоахимсом в 2002 году. Первоначальной целью алгоритма было повышение производительности поисковой системы в Интернете . Однако было обнаружено, что Ranking SVM также может использоваться для решения других задач, таких как Rank SIFT .

Описание

Алгоритм ранжирования SVM - это обучающая поисковая функция, которая использует методы попарного ранжирования для адаптивной сортировки результатов в зависимости от того, насколько они «релевантны» для конкретного запроса. Функция ранжирования SVM использует функцию сопоставления для описания соответствия между поисковым запросом и характеристиками каждого из возможных результатов. Эта функция сопоставления проецирует каждую пару данных (например, поисковый запрос и выбранную веб-страницу) в пространство функций. Эти функции сочетаются с соответствующими данными о переходах по ссылкам (которые могут выступать в качестве прокси для определения релевантности страницы для конкретного запроса) и затем могут использоваться в качестве обучающих данных для алгоритма SVM ранжирования.

Как правило, ранжирование SVM включает в себя три этапа в период обучения:

  1. Он отображает сходство между запросами и нажатыми страницами в определенное пространство функций.
  2. Он вычисляет расстояния между любыми двумя векторами, полученными на шаге 1.
  3. Он формирует проблему оптимизации, которая похожа на стандартную классификацию SVM, и решает эту проблему с помощью обычного решателя SVM.

Фон

Метод ранжирования

Предположим , это набор данных, содержащий элементы . - это метод ранжирования, применяемый к . Тогда in можно представить в виде двоичной матрицы. Если ранг выше, чем ранг , то есть соответствующая позиция этой матрицы устанавливается равной «1». В противном случае элемент в этой позиции будет установлен как значение «0».

Тау Кендалла

Тау Кендалла также относится к коэффициенту ранговой корреляции тау Кендалла , который обычно используется для сравнения двух методов ранжирования для одного и того же набора данных.

Предположим, что и являются двумя методами ранжирования, применяемыми к набору данных , тау Кендалла между и можно представить следующим образом:

где - количество согласованных пар, а - количество дискордантных пар (инверсий). Пара и созвучна , если оба и согласны с тем , как они заказывают и . Несогласие - это несогласие.

Качество поиска информации

Качество поиска информации обычно оценивается по следующим трем параметрам:

  1. Точность
  2. Отзывать
  3. Средняя точность

Для конкретного запроса к базе данных пусть будет набором соответствующих информационных элементов в базе данных и набором извлеченных информационных элементов. Тогда указанные выше три измерения можно представить следующим образом:

где это из .

Пусть и - ожидаемый и предлагаемый методы ранжирования базы данных соответственно, нижняя граница средней точности метода может быть представлена ​​следующим образом:

где это количество различных элементов в верхних треугольных частях матриц и и это количество соответствующих элементов в наборе данных.

Классификатор SVM

Предположим, это элемент обучающего набора данных, где - вектор признаков и - метка (которая классифицирует категорию ). Типичный классификатор SVM для такого набора данных можно определить как решение следующей задачи оптимизации.

Решение указанной выше задачи оптимизации можно представить как линейную комбинацию векторов признаков s.

где - коэффициенты, подлежащие определению.

Алгоритм ранжирования SVM

Функция потерь

Пусть будет тау Кендалла между ожидаемым методом ранжирования и предлагаемым методом , можно доказать, что максимизация помогает минимизировать нижнюю границу средней точности .

  • Ожидаемая функция потерь

Отрицательное значение можно выбрать в качестве функции потерь, чтобы минимизировать нижнюю границу средней точности

где - статистическое распределение для определенного запроса .

  • Эмпирическая функция потерь

Поскольку функция ожидаемых потерь не применима, на практике для обучающих данных выбирается следующая эмпирическая функция потерь.

Сбор обучающих данных

Запросы iid применяются к базе данных, и каждый запрос соответствует методу ранжирования. В наборе обучающих данных есть элементы. Каждый элемент содержит запрос и соответствующий метод ранжирования.

Пространство функций

Помеченные точки в пространстве функций

Функция сопоставления требуется для сопоставления каждого запроса и элемента базы данных с пространством функций. Затем каждой точке в пространстве признаков присваивается определенный ранг методом ранжирования.

Проблема оптимизации

Точки, сгенерированные обучающими данными, находятся в пространстве признаков, которые также несут информацию о ранге (метки). Эти помеченные точки можно использовать для поиска границы (классификатора), определяющей их порядок. В линейном случае такой границей (классификатором) является вектор.

Предположим, что и - два элемента в базе данных, и обозначим, выше ли ранг, чем в определенном методе ранжирования . Пусть вектор будет кандидатом в линейный классификатор в пространстве признаков. Тогда проблема ранжирования может быть переведена на следующую задачу классификации SVM. Обратите внимание, что один метод ранжирования соответствует одному запросу.

Вышеупомянутая задача оптимизации идентична классической задаче классификации SVM, поэтому этот алгоритм называется Ranking-SVM.

Кандидат W
Не кандидат

Функция поиска

Оптимальный вектор, полученный по обучающей выборке, равен

Таким образом, поисковая функция может быть сформирована на основе такого оптимального классификатора.
Для нового запроса функция поиска сначала проецирует все элементы базы данных в пространство функций. Затем он упорядочивает эти характерные точки по значениям их внутренних продуктов с оптимальным вектором. И ранг каждой особой точки - это ранг соответствующего элемента базы данных для запроса .

Применение рейтингового SVM

SVM ранжирования может применяться для ранжирования страниц в соответствии с запросом. Алгоритм можно обучить с использованием данных по переходам, которые состоят из следующих трех частей:

  1. Запрос.
  2. Текущий рейтинг результатов поиска
  3. Результаты поиска, на которые нажал пользователь

Комбинация 2 и 3 не может обеспечить полный порядок обучающих данных, который необходим для применения полного алгоритма SVM. Вместо этого он предоставляет часть информации о ранжировании обучающих данных. Так что алгоритм можно немного доработать следующим образом.

Этот метод не предоставляет информацию о ранжировании всего набора данных, это подмножество полного метода ранжирования. Таким образом, условие задачи оптимизации становится более расслабленным по сравнению с исходным Ranking-SVM.

использованная литература