Автоматическая индексация - Automatic indexing

Автоматическое индексирование - это компьютеризированный процесс сканирования больших объемов документов с использованием контролируемого словаря , таксономии , тезауруса или онтологии и использования этих контролируемых терминов для быстрого и эффективного индексирования больших электронных хранилищ документов . Эти ключевые слова или язык применяются путем обучения системы правилам, определяющим, каким словам соответствовать. К этому есть дополнительные части, такие как синтаксис, использование, близость и другие алгоритмы, основанные на системе и необходимые для индексации. Это учитывается с помощью логических операторов для сбора и извлечения информации об индексировании из текста. Поскольку количество документов экспоненциально увеличивается с распространением Интернета , автоматическое индексирование станет важным для поддержания способности находить нужную информацию в море нерелевантной информации . Системы естественного языка используются для обучения системы, основанной на семи различных методах, чтобы помочь с этим морем нерелевантной информации. Это морфологический, лексический, синтаксический, числовой, фразеологический, семантический и прагматический методы. Каждый из них выглядит и разные части скорости и условий для создания домена для конкретной информации, которая покрывается для индексации. Это используется в автоматизированном процессе индексации.

В автоматизированном процессе могут возникать проблемы, которые в первую очередь вызваны двумя факторами: 1) сложностью языка; и 2) недостаток интуитивности и сложность экстраполяции концепций из утверждений со стороны вычислительной технологии. Это в первую очередь лингвистические проблемы, а конкретные проблемы связаны с семантическими и синтаксическими аспектами языка. Эти проблемы возникают из-за определенных ключевых слов. С помощью этих ключевых слов вы можете определить точность системы на основе совпадений, промахов и шума. Эти термины относятся к точным совпадениям, ключевым словам, которые компьютерная система пропустила, а не человек, и ключевым словам, выбранным компьютером и отсутствующим у человека. Статистика точности, основанная на этом, должна быть выше 85% для Hits из 100% для индексации человека. Таким образом, промахи и шум составляют 15% или меньше. Эта шкала обеспечивает основу для того, что считается хорошей системой автоматической индексации, и показывает, где возникают проблемы.

История

Есть ученые, которые ссылаются на то, что тема автоматического индексирования привлекала внимание еще в 1950-х годах, особенно в связи с потребностью в более быстром и полном доступе к научной и инженерной литературе. Это внимание к индексации началось с обработки текста в период с 1957 по 1959 год, проведенной HP Lunh через серию опубликованных статей. Лунь предположил, что компьютер может обрабатывать сопоставление ключевых слов, сортировку и анализ контента. Это было началом автоматической индексации и формулы извлечения ключевых слов из текста на основе частотного анализа. Позже было установлено, что одной частоты недостаточно для хороших дескрипторов, однако это положило начало пути к тому, где мы сейчас находимся с автоматическим индексированием. Это было подчеркнуто информационным взрывом, который был предсказан в 1960-х годах и произошел благодаря появлению информационных технологий и всемирной паутины. Прогноз был подготовлен Мурсом, где была создана схема с ожидаемой ролью вычислений для обработки текста и поиска информации. В этом прогнозе говорилось, что машины будут использоваться для хранения документов в больших коллекциях, и что мы будем использовать эти машины для выполнения поиска. Муерс также предсказал онлайновый аспект и среду поиска для индексирования баз данных. Это привело Мурса к созданию машины индукционного вывода, которая произведет революцию в индексировании. Это явление потребовало разработки системы индексации, способной справиться с задачей хранения и организации огромного количества данных и облегчить доступ к информации. Новое электронное оборудование еще больше усовершенствовало автоматизированное индексирование, поскольку оно преодолело барьер, наложенный старыми бумажными архивами, позволяя кодировать информацию на молекулярном уровне. С этим новым электронным оборудованием были разработаны инструменты для помощи пользователям. Они использовались для управления файлами и были организованы в различные категории, такие как PDM Suite, такие как Outlook или Lotus Note, и инструменты Mind Mapping, такие как MindManager и Freemind. Это позволяет пользователям сосредоточиться на хранении и построении когнитивной модели. Автоматическое индексирование также частично обусловлено появлением области, называемой компьютерной лингвистикой , которая руководила исследованиями, в результате которых были разработаны такие методы, как применение компьютерного анализа к структуре и значению языков. Автоматическое индексирование дополнительно стимулируется исследованиями и разработками в области искусственного интеллекта и самоорганизующихся систем, также называемых мыслящими машинами.

Смотрите также

использованная литература