Корпоративный поиск - Enterprise search

Корпоративный поиск - это практика создания контента из нескольких источников корпоративного типа, таких как базы данных и интрасети , доступным для поиска определенной аудитории.

«Корпоративный поиск» используется для описания программного обеспечения поиска информации на предприятии (хотя функция поиска и ее результаты могут быть общедоступными). Корпоративный поиск можно сравнить с веб-поиском , который применяет технологию поиска к документам в открытой сети, и настольным поиском , который применяет технологию поиска к контенту на одном компьютере.

Поисковые системы предприятия индексируют данные и документы из различных источников, таких как файловые системы , интрасети , системы управления документами , электронная почта и базы данных . Многие поисковые системы предприятия объединяют структурированные и неструктурированные данные в свои коллекции. Корпоративные поисковые системы также используют средства управления доступом, чтобы обеспечить соблюдение политики безопасности для своих пользователей.

Корпоративный поиск можно рассматривать как разновидность вертикального поиска на предприятии.

Компоненты поисковой системы предприятия

В поисковой системе предприятия контент проходит различные фазы от исходного репозитория до результатов поиска:

Осведомленность о контенте

Осведомленность о контенте (или «сбор контента») обычно представляет собой модель выталкивания или вытягивания. В модели push исходная система интегрирована с поисковой системой таким образом, что она подключается к ней и подталкивает новый контент непосредственно к своим API . Эта модель используется, когда важна индексация в реальном времени. В модели pull программное обеспечение собирает контент из источников с помощью соединителя, такого как поисковый робот или соединитель базы данных . Соединитель обычно опрашивает источник с определенными интервалами для поиска нового, обновленного или удаленного содержимого.

Обработка и анализ контента

Контент из разных источников может иметь много разных форматов или типов документов, таких как XML, HTML, форматы документов Office или простой текст. На этапе обработки содержимого входящие документы преобразуются в обычный текст с помощью фильтров документов. Также часто бывает необходимо нормализовать контент различными способами для улучшения запоминания или точности . Они могут включать выделение корней , лемматизацию , расширение синонимов , извлечение сущностей , часть тегов речи .

В рамках обработки и анализа токенизация применяется для разделения контента на токены, которые являются основной единицей сопоставления. Также принято нормализовать токены к нижнему регистру, чтобы обеспечить поиск без учета регистра, а также нормализовать акценты для лучшего отзыва.

Индексирование

Полученный текст сохраняется в индексе , который оптимизирован для быстрого поиска без сохранения полного текста документа. Индекс может содержать словарь всех уникальных слов в корпусе, а также информацию о ранжировании и частоте использования терминов .

Обработка запросов

Используя веб-страницу, пользователь отправляет запрос в систему. Запрос состоит из любых вводимых пользователем терминов, а также из навигационных действий, таких как фасетирование и разбиение на страницы.

Соответствие

Затем обработанный запрос сравнивается с сохраненным индексом, и поисковая система возвращает результаты (или «совпадения»), ссылающиеся на исходные документы, которые совпадают. Некоторые системы могут представить документ в том виде, в котором он был проиндексирован.

Отличия от веб-поиска

Помимо разницы в типах индексируемых материалов, поисковые системы предприятия также обычно включают в себя функции, не связанные с основными поисковыми системами в Интернете . К ним относятся:

Адаптеры для индексации контента из различных репозиториев, таких как базы данных и системы управления контентом .
Федеративный поиск , состоящий из

преобразование запроса и его широковещательная передача группе разрозненных баз данных или внешних источников контента с соответствующим синтаксисом,
объединение результатов, собранных из баз данных,
представление их в сжатой и унифицированной форме с минимальным дублированием, и
предоставление средств, выполняемых либо автоматически, либо пользователем портала, для сортировки объединенного набора результатов.

Корпоративные закладки , системы коллективных тегов для сбора знаний о структурированных и полуструктурированных корпоративных данных.
Извлечение сущностей, которое стремится найти и классифицировать элементы в тексте по предопределенным категориям, таким как имена людей, организаций, местоположения, выражения времени, количества, денежных значений, процентов и т. Д.
Фасетный поиск - метод доступа к набору информации, представленной с использованием фасетной классификации , позволяющий пользователям исследовать, фильтруя доступную информацию.
Контроль доступа, обычно в форме списка контроля доступа (ACL), часто требуется для ограничения доступа к документам на основе идентификаторов отдельных пользователей. Существует много типов механизмов управления доступом для различных источников контента, что делает эту задачу сложной для комплексного решения в поисковой среде предприятия (см. Ниже).
Текстовая кластеризация , которая группирует несколько сотен лучших результатов поиска по темам, которые вычисляются на лету из описаний результатов поиска, обычно заголовков, отрывков (сниппетов) и метаданных. Этот метод позволяет пользователям перемещаться по контенту по теме, а не по метаданным, которые используются при фасетировании. Кластеризация компенсирует проблему несовместимости метаданных в нескольких корпоративных репозиториях, что снижает полезность фасетирования.
Пользовательские интерфейсы , которые в веб-поиске намеренно сделаны простыми, чтобы не отвлекать пользователя от нажатия на рекламу, что приносит доход. Хотя бизнес-модель поисковой системы предприятия может включать показ рекламы, на практике этого не делается. Чтобы повысить продуктивность конечных пользователей, поставщики предприятий постоянно экспериментируют с богатыми функциональными возможностями пользовательского интерфейса, которые занимают значительное пространство на экране, что было бы проблематично для веб-поиска.

Факторы релевантности

Факторы, определяющие релевантность результатов поиска в контексте предприятия, совпадают с теми, которые применяются к веб-поиску, но отличаются от них. В целом поисковые системы предприятия не могут воспользоваться преимуществами богатой структуры ссылок, которая присутствует в гипертекстовом веб- контенте, однако новое поколение поисковых систем предприятия, основанное на восходящей технологии Web 2.0 , обеспечивает как дополнительный подход, так и гиперссылки внутри предприятие. Такие алгоритмы, как PageRank, используют структуру гиперссылок для присвоения авторитетных документов документам, а затем используют этот авторитет как фактор релевантности, не зависящий от запроса. Напротив, предприятиям обычно приходится использовать другие факторы, не зависящие от запроса, такие как новизна или популярность документа, а также факторы, зависящие от запроса, традиционно связанные с алгоритмами поиска информации . Кроме того, широкие функциональные возможности пользовательских интерфейсов поисковой системы предприятия, такие как кластеризация и фасетирование, уменьшают зависимость от ранжирования как средства направления внимания пользователя.

Контроль доступа: раннее связывание против позднего связывания

Безопасность и ограниченный доступ к документам - важный аспект поисковой системы предприятия. Существует два основных подхода к применению ограниченного доступа: раннее связывание и позднее связывание.

Поздняя привязка

Права доступа анализируются и присваиваются документам на этапе запроса. Механизм запросов генерирует набор документов, и перед возвратом его пользователю этот набор фильтруется на основе прав доступа пользователя. Это дорогостоящий, но точный процесс (зависит от прав пользователя на момент запроса).

Раннее связывание

Права доступа анализируются и присваиваются документам на этапе индексации. Это намного эффективнее, чем позднее связывание, но может быть неточным (пользователю могут быть предоставлены или отозваны разрешения в период между индексированием и запросом).

Варианты проверки релевантности поиска

Релевантность поискового приложения можно определить с помощью следующих параметров проверки релевантности, таких как

Фокус группы
Протокол оценки ссылок (на основе суждений о релевантности результатов согласованных запросов, выполняемых в отношении общих корпусов документов)
Эмпирическое тестирование
A / B тестирование
Анализ журналов на производственной бета-версии
Онлайн-рейтинги

Languages

In other projects