ЛОЛИТА - LOLITA

LOLITA - это система обработки естественного языка, разработанная Даремским университетом в период с 1986 по 2000 год. Название является аббревиатурой от «Large-scale, Object-based, Linguistic Interactor , Translator and Analyzer».

LOLITA была разработана Роберто Гарильяно и его коллегами в период с 1986 по 2000 год. Она была разработана как универсальный инструмент для обработки неограниченного текста, который мог бы стать основой для самых разных приложений . В ее основе была семантическая сеть, содержащая около 90 000 взаимосвязанных концепций. Текст мог быть проанализирован и проанализирован, а затем включен в семантическую сеть, где о нем можно было бы рассуждать (Long and Garigliano, 1993). Фрагменты семантической сети также могут быть возвращены на английский или испанский язык .

Несколько приложений были созданы с использованием системы, в том числе анализаторы финансовой информации и инструменты извлечения информации для Darpa's « Message Understanding Conference Competitions» ( MUC-6 и MUC-7 ). Последний включал обработку оригинальных статей Wall Street Journal для выполнения таких задач, как определение ключевых изменений в работе на предприятиях и обобщение статей. LOLITA была одной из немногих систем по всему миру, которые участвовали в соревнованиях по всем разделам задач. Описание системы и анализ результатов MUC-6 были написаны Каллаганом (Callaghan, 1998).

LOLITA был ранним примером значительного приложения , написанного на функциональном языке : он состоял из около 50000 строк Haskell , с около 6000 строк C . Это также сложное и требовательное приложение, в разработке которого многие аспекты Haskell были неоценимы.

LOLITA была разработана для обработки неограниченного текста, поэтому двусмысленность на различных уровнях была неизбежной и значительной. Лень была необходима в борьбе с взрывом синтаксической двусмысленности, возникающим из-за большой грамматики , и она также часто использовалась с семантической двусмысленностью. Система использовала несколько « встроенных языков предметной области » для семантической и прагматической обработки и для генерации текста на естественном языке из семантической сети. Также важно было умение работать со сложными абстракциями и быстро создавать прототипы новых алгоритмов анализа .

Более поздние системы, основанные на том же дизайне, включают Concepts и SenseGraph.

Смотрите также

Ссылки

внешние ссылки