Лемматизация - Lemmatisation

Лемматизация ( или лемматизация ) в лингвистике - это процесс группирования вместе изменяемых форм слова, чтобы их можно было анализировать как единый элемент, идентифицируемый леммой слова или словарной формой.

В компьютерной лингвистике лемматизация - это алгоритмический процесс определения леммы слова на основе его предполагаемого значения. В отличии от вытекающих , лемматизация зависит от правильного определения намеченной части речи и смысла слова в предложении, а также в более широком контексте , окружающая эту фразу, например, соседние предложения или даже весь документе. В результате разработка эффективных алгоритмов лемматизации остается открытой областью исследований.

Описание

Во многих языках слова имеют несколько изменяемых форм. Например, в английском языке глагол «ходить» может выглядеть как «ходить», «гулять», «ходить» или «ходить». Базовая форма «прогулка», которую можно найти в словаре, называется леммой для слова. Связь основной формы с частью речи часто называют лексемой слова.

Лемматизация тесно связана с выращиванием стеблей . Разница в том, что стеммер оперирует одним словом без знания контекста и, следовательно, не может различать слова, которые имеют разные значения в зависимости от части речи. Тем не менее, стеммеры обычно проще в использовании и работают быстрее. Пониженная «точность» может не иметь значения для некоторых приложений. Фактически, при использовании в системах поиска информации стемминг улучшает точность отзыва запроса или истинно положительную скорость по сравнению с лемматизацией. Тем не менее, устранение препятствий снижает точность или долю положительно помеченных экземпляров, которые действительно являются положительными, для таких систем.

Например:

  1. Слово «лучше» имеет в качестве леммы «хорошо». Эта ссылка пропускается при остановке, так как требует поиска в словаре.
  2. Слово «прогулка» является базовой формой слова «ходьба», и, следовательно, оно совпадает как в стемминге, так и в лемматизации.
  3. Слово «встреча» может быть основной формой существительного или формой глагола («встречаться») в зависимости от контекста; например, «на нашей последней встрече» или «Мы снова встречаемся завтра». В отличие от стемминга, лемматизация пытается выбрать правильную лемму в зависимости от контекста.

Программное обеспечение для индексирования документов, такое как Lucene, может сохранять базовый формат слова без знания значения, но только с учетом правил грамматики словообразования. Само слово с корнем может быть недопустимым: слово «ленивый», как видно из приведенного ниже примера, происходит от многих словосочетаний «лази». Это связано с тем, что цель выделения не состоит в том, чтобы создать соответствующую лемму - это более сложная задача, требующая знания контекста. Основная цель создания корней - сопоставить разные формы слова с одной формой. Как алгоритм, основанный на правилах, зависящий только от написания слова, он жертвует точностью, чтобы, например, когда слово «ленивость» заменяется на «ленивый», оно имеет ту же основу, что и «ленивый».

Алгоритмы

Тривиальный способ выполнить лемматизацию - это простой поиск по словарю. Это хорошо работает для простых изменяемых форм, но система, основанная на правилах, потребуется для других случаев, например, в языках с длинными составными словами . Такие правила могут быть созданы вручную или изучены автоматически из аннотированного корпуса.

Использование в биомедицине

Морфологический анализ опубликованной биомедицинской литературы может дать полезные результаты. Морфологическая обработка биомедицинского текста может быть более эффективной с помощью специальной программы лемматизации для биомедицины и может повысить точность практических задач извлечения информации .

Смотрите также

Рекомендации

Внешние ссылки