Вычислительная лексикология - Computational lexicology

Вычислительная лексикология - это раздел компьютерной лингвистики , который занимается использованием компьютеров при изучении лексики . Некоторые ученые (Амслер, 1980) более узко описывают это как использование компьютеров при изучении машиночитаемых словарей . Он отличается от вычислительной лексикографии , которая более правильно была бы использованием компьютеров при построении словарей, хотя некоторые исследователи использовали вычислительную лексикографию как синоним .

История

Вычислительные лексикологии как отдельная дисциплина в компьютерной лингвистике с появлением машиночитаемых словарей, начиная с созданием машиночитаемых лент из Merriam-Webster Седьмого Энциклопедического словаря и Merriam-Webster Новых карманного словаря в 1960 - х годах от Иоанна Olney et al. в Корпорации развития систем . Сегодня вычислительная лексикология наиболее известна благодаря созданию и применению WordNet . Поскольку вычислительная обработка исследователей со временем увеличивалась, использование вычислительной лексикологии повсеместно применялось при анализе текста. В 1987 году, среди прочих, Берд, Кальцолари, Чодороу разработали вычислительные инструменты для анализа текста. В частности, модель была разработана для координации ассоциаций, связанных с смыслом многозначных слов.

Изучение лексики

Вычислительная лексикология внесла свой вклад в понимание содержания и ограничений печатных словарей для вычислительных целей (т.е. она прояснила, что предыдущая работа по лексикографии была недостаточна для нужд компьютерной лингвистики). Благодаря работе компьютерных лексикологов была изучена почти каждая часть статьи печатного словаря, начиная от:

  1. что составляет заглавное слово - используется для создания списков исправлений орфографии;
  2. какие варианты и наклонения образуют заглавные слова - используются для эмпирического понимания морфологии;
  3. как заглавное слово разделено на слоги;
  4. как произносится заглавное слово - используется в системах генерации речи;
  5. части речи, которые принимает заглавное слово - используются для тегировщиков POS ;
  6. любые специальные коды темы или использования, присвоенные заглавному слову - используются для идентификации предмета текстового документа;
  7. определения заглавного слова и их синтаксис - используются для устранения неоднозначности слова в контексте;
  8. этимология заглавного слова и его использование для характеристики словаря по языкам происхождения - используется для характеристики словаря текста в отношении языков его происхождения;
  9. примеры предложений;
  10. дополнения (дополнительные слова и многословные выражения, образующиеся из заглавного слова); и
  11. связанные слова, такие как синонимы и антонимы .

Многие компьютерные лингвисты были разочарованы печатными словарями как ресурсом для компьютерной лингвистики, потому что им не хватало синтаксической и семантической информации для компьютерных программ. Работа над вычислительной лексикологией быстро привела к усилиям в двух дополнительных направлениях.

Преемники вычислительной лексикологии

Во-первых, совместная деятельность компьютерных лингвистов и лексикографов привела к пониманию роли, которую корпорации играют в создании словарей. Большинство компьютерных лексикологов перешли к созданию больших корпусов для сбора основных данных, которые лексикографы использовали для создания словарей. ACL / DCI (Инициатива по сбору данных) и LDC ( Консорциум лингвистических данных ) пошли по этому пути. Появление языков разметки привело к созданию корпусов с тегами, которые можно было легче анализировать для создания вычислительных лингвистических систем. Корпуса с тегами части речи и корпуса с семантическими тегами были созданы для тестирования и разработки устройств для тегов POS и технологии устранения семантической неоднозначности слов .

Второе направление было направлено на создание баз лексических знаний (ББЗ). Лексическая база знаний считалась тем, чем должен быть словарь для вычислительных лингвистических целей, особенно для вычислительных лексико-семантических целей. Он должен был содержать ту же информацию, что и в печатном словаре, но полностью разъяснять значения слов и соответствующие связи между смыслами. Многие начали создавать ресурсы, которые, как им хотелось, были словарями, если они были созданы для использования в вычислительном анализе. WordNet можно рассматривать как такую ​​разработку, как и новые усилия по описанию синтаксической и семантической информации, такие как работа Филлмора по FrameNet. Помимо вычислительной лингвистики, работу над онтологией искусственного интеллекта можно рассматривать как эволюционную попытку создать базу лексических знаний для приложений ИИ.

Стандартизация

Оптимизация производства, обслуживания и расширения вычислительных лексиконов - один из важнейших аспектов, влияющих на НЛП . Основная проблема - это совместимость : разные лексиконы часто несовместимы. Наиболее частая ситуация: как объединить два лексикона или фрагменты лексиконов? Вторая проблема состоит в том, что лексикон обычно специально адаптирован к конкретной программе НЛП и имеет трудности с использованием в других программах или приложениях НЛП.

В этом отношении различные модели данных вычислительных лексиконов изучаются ISO / TC37 с 2003 года в рамках структуры лексической разметки проекта, ведущей к стандарту ISO в 2008 году.

Ссылки

Амслер, Роберт А. 1980. Доктор философии. Диссертация "Структура карманного словаря Мерриам-Вебстера". Техасский университет в Остине.

внешние ссылки