Компьютерная лингвистика - Computational linguistics

Вычислительная лингвистика является междисциплинарным поле касается с компьютерным моделированием на естественном языке , а также изучением соответствующих вычислительных подходов к языковым вопросам. В целом компьютерная лингвистика опирается на лингвистику , информатику , искусственный интеллект , математику , логику , философию , когнитивную науку , когнитивную психологию , психолингвистику , антропологию и нейробиологию и другие.

Подполя и связанные области

Традиционно компьютерная лингвистика возникла как область искусственного интеллекта, выполняемая учеными-компьютерщиками , которые специализировались на применении компьютеров для обработки естественного языка . С образованием Ассоциации компьютерной лингвистики (ACL) и учреждением серии независимых конференций, эта область консолидировалась в течение 1970-х и 1980-х годов.

Ассоциация компьютерной лингвистики определяет компьютерную лингвистику как:

... научное изучение языка с вычислительной точки зрения. Вычислительные лингвисты заинтересованы в предоставлении вычислительных моделей различных лингвистических явлений.

Термин «компьютерная лингвистика» в настоящее время (2020 г.) считается почти синонимом технологии обработки естественного языка (НЛП) и (человеческого) языка . Эти термины уделяют больше внимания аспектам практического применения, а не теоретическим исследованиям, начиная с 2000-х годов. На практике они в значительной степени заменили термин «компьютерная лингвистика» в сообществе NLP / ACL, хотя конкретно относятся только к подполе прикладной компьютерной лингвистики.

Компьютерная лингвистика имеет как теоретические, так и прикладные компоненты. Теоретическая компьютерная лингвистика занимается вопросами теоретической лингвистики и когнитивной науки. Прикладная компьютерная лингвистика фокусируется на практических результатах моделирования использования человеческого языка.

Теоретическая компьютерная лингвистика включает разработку формальных теорий грамматики ( синтаксического анализа ) и семантики , часто основанных на формальной логике и символических ( основанных на знаниях ) подходах. Области исследований, изучаемые теоретической компьютерной лингвистикой, включают:

В прикладной компьютерной лингвистике преобладает машинное обучение , традиционно использующее статистические методы , с середины 2010-х годов - нейронные сети : Socher et al. (2012) был одним из первых руководств по глубокому обучению на ACL 2012 и встретил как интерес, так и (в то время) скептицизм большинства участников. До этого нейронное обучение в основном отвергалось из-за отсутствия статистической интерпретируемости. До 2015 года глубокое обучение превратилось в основную структуру НЛП. О задачах, решаемых прикладной компьютерной лингвистикой, читайте в статье Обработка естественного языка . Сюда входят классические проблемы, такие как разработка POS-тегеров (тегеров части речи) , парсеров для естественных языков или таких задач, как машинный перевод (MT), подраздел компьютерной лингвистики, имеющий дело с компьютерным переводом между языками. . Как одно из самых ранних и сложных приложений компьютерной лингвистики, машинное обучение опирается на множество подполей, как теоретических, так и прикладных аспектов. Традиционно автоматический языковой перевод считался печально известным разделом компьютерной лингвистики.

Помимо дихотомии между теоретической и прикладной компьютерной лингвистикой, существуют другие подразделения вычислительной техники на основные области в соответствии с различными критериями, в том числе:

  • среда языка обрабатываемый, будь то говорил или текстуальное: распознавание речи и синтез речи дело с тем, как разговорный язык можно понимать или созданные с помощью компьютеров.
  • выполняемая задача , например, анализирует ли язык (распознавание) или синтезирует язык (генерация) : синтаксический анализ и генерация являются подразделами компьютерной лингвистики, занимающимися соответственно разделением языка и его объединением.

Традиционно применение компьютеров для решения исследовательских задач в других отраслях лингвистики описывалось как задачи компьютерной лингвистики. Среди прочего, это включает

Происхождение

Вычислительную лингвистику часто относят к области искусственного интеллекта, но она присутствовала до появления искусственного интеллекта. Вычислительная лингвистика зародилась в 1950-х годах, когда в Соединенных Штатах Америки были предприняты попытки использовать компьютеры для автоматического перевода текстов с иностранных языков, особенно из российских научных журналов, на английский. Поскольку компьютеры могут производить арифметические (систематические) вычисления намного быстрее и точнее, чем люди, считалось, что это лишь короткий вопрос времени, прежде чем они смогут начать обрабатывать язык. Вычислительные и количественные методы также исторически используются при попытках реконструкции более ранних форм современных языков и подгруппы современных языков в языковые семьи. Ранние методы, такие как лексикостатистика и глоттохронология , оказались преждевременными и неточными. Однако недавние междисциплинарные исследования, которые заимствуют концепции из биологических исследований, особенно картирования генов , показали, что они дают более сложные аналитические инструменты и более надежные результаты.

Когда машинный перевод (также известный как механический перевод) не сразу давал точные переводы, автоматическая обработка человеческих языков была признана гораздо более сложной, чем предполагалось изначально. Вычислительная лингвистика родилась как название новой области исследований, посвященной разработке алгоритмов и программного обеспечения для интеллектуальной обработки языковых данных. Сам термин «компьютерная лингвистика» впервые был введен Дэвидом Хейсом , одним из основателей Ассоциации компьютерной лингвистики (ACL) и Международного комитета компьютерной лингвистики (ICCL).

Было замечено, что для перевода одного языка на другой необходимо понимать грамматику обоих языков, включая как морфологию (грамматику словоформ), так и синтаксис (грамматику структуры предложения). Чтобы понять синтаксис, нужно было также понимать семантику и лексику (или «словарь») и даже кое-что из прагматики использования языка. Таким образом, то, что начиналось как попытка перевода между языками, превратилось в целую дисциплину, посвященную пониманию того, как представлять и обрабатывать естественные языки с помощью компьютеров.

В настоящее время исследования в области компьютерной лингвистики проводятся на факультетах компьютерной лингвистики, лабораториях компьютерной лингвистики, факультетах информатики и лингвистике. Некоторые исследования в области компьютерной лингвистики направлены на создание рабочих систем обработки речи или текста, в то время как другие нацелены на создание системы, обеспечивающей взаимодействие человека и машины. Программы, предназначенные для взаимодействия человека с машиной, называются диалоговыми агентами .

Подходы

Подобно тому, как компьютерная лингвистика может выполняться экспертами в различных областях и через широкий спектр отделов, также области исследований могут охватывать широкий круг тем. В следующих разделах обсуждается некоторая литература, доступная во всей области, разбитая на четыре основные области дискурса: лингвистика развития, структурная лингвистика, лингвистическое производство и лингвистическое понимание.

Подходы к развитию

Язык - это познавательный навык, который развивается на протяжении всей жизни человека. Этот процесс развития был исследован с использованием нескольких методов, и вычислительный подход является одним из них. Развитие человеческого языка действительно имеет некоторые ограничения, которые затрудняют применение вычислительного метода для его понимания. Например, во время овладения языком человеческие дети в основном получают только положительные доказательства. Это означает, что во время языкового развития человека предоставляется единственное свидетельство того, что является правильной формой, и никаких свидетельств того, что является неправильным. Этой информации недостаточно для простой процедуры проверки гипотез для такой сложной информации, как язык, и поэтому она обеспечивает определенные границы для вычислительного подхода к моделированию развития и усвоения языка у человека.

Были предприняты попытки смоделировать процесс развития усвоения языка у детей с вычислительной точки зрения, что привело как к статистическим грамматикам, так и к моделям коннекционизма . Работа в этой области также была предложена как метод объяснения эволюции языка в истории. С помощью моделей было показано, что языки можно изучать с помощью комбинации простых входных данных, которые вводятся постепенно, по мере того, как ребенок развивает лучшую память и большую продолжительность концентрации внимания. Одновременно это выдвигалось как причина длительного периода развития человеческих детей. Оба вывода были сделаны из-за силы искусственной нейронной сети, созданной проектом.

Способность младенцев развивать язык также была смоделирована с помощью роботов для проверки лингвистических теорий. Модель, позволяющая учиться наравне с детьми, была создана на основе модели аффорданса, в которой были созданы сопоставления между действиями, восприятием и эффектами и связаны с произнесенными словами. Что особенно важно, эти роботы смогли получить функционирующие преобразования слова в значение, не нуждаясь в грамматической структуре, что значительно упростило процесс обучения и пролило свет на информацию, которая способствует нынешнему пониманию лингвистического развития. Важно отметить, что эту информацию можно было проверить только эмпирически с использованием вычислительного подхода.

Поскольку наше понимание языкового развития человека в течение жизни постоянно улучшается с использованием нейронных сетей и обучающих роботизированных систем , также важно помнить, что сами языки меняются и развиваются с течением времени. Вычислительные подходы к пониманию этого явления обнаружили очень интересную информацию. Используя уравнение Прайса и динамику урны Полиа , исследователи создали систему, которая не только предсказывает будущую лингвистическую эволюцию, но и дает представление об эволюционной истории современных языков. Это моделирование с помощью компьютерной лингвистики достигло того, что в противном случае было бы невозможно.

Ясно, что понимание лингвистического развития у людей, а также на протяжении всего эволюционного времени было фантастически улучшено благодаря достижениям компьютерной лингвистики. Способность моделировать и модифицировать системы по желанию дает науке этический метод проверки гипотез, которые в противном случае были бы трудноразрешимыми.

Структурные подходы

Для создания более совершенных вычислительных моделей языка решающее значение имеет понимание структуры языка. С этой целью английский язык был тщательно изучен с использованием вычислительных подходов, чтобы лучше понять, как язык работает на структурном уровне. Одним из наиболее важных аспектов изучения лингвистической структуры является наличие больших лингвистических корпусов или образцов. Это предоставляет компьютерным лингвистам необработанные данные, необходимые для запуска их моделей и лучшего понимания базовых структур, присутствующих в огромном количестве данных, содержащихся на любом отдельном языке. Один из самых цитируемых английских лингвистических корпусов - Penn Treebank . Этот корпус, заимствованный из самых разных источников, таких как компьютерные руководства IBM и расшифровки телефонных разговоров, содержит более 4,5 миллионов слов американского английского. Этот корпус был в основном аннотирован с использованием тегов части речи и синтаксических скобок и дал существенные эмпирические наблюдения, связанные со структурой языка.

Также были разработаны теоретические подходы к структуре языков. Эти работы позволяют компьютерной лингвистике иметь основу для разработки гипотез, которые будут способствовать пониманию языка множеством способов. Один из оригинальных теоретических тезисов об интернализации грамматики и структуры языка предлагал модели двух типов. В этих моделях усвоенные правила или паттерны усиливаются с частотой их встреч. Работа также поставила вопрос перед компьютерными лингвистами, на который они должны были ответить: как младенец выучивает специфическую и ненормальную грамматику ( нормальная форма Хомского ), не изучая чрезмерно обобщенную версию и не застревая? Подобные теоретические усилия задают направление исследованиям на ранних этапах существования области исследования и имеют решающее значение для развития этой области.

Структурная информация о языках позволяет обнаруживать и реализовывать распознавание сходства между парами текстовых высказываний. Например, недавно было доказано, что на основе структурной информации, присутствующей в паттернах человеческого дискурса, графики концептуальной повторяемости могут использоваться для моделирования и визуализации тенденций в данных и создания надежных мер сходства между естественными текстовыми высказываниями. Этот метод - мощный инструмент для дальнейшего исследования структуры человеческого дискурса . Без вычислительного подхода к этому вопросу чрезвычайно сложная информация, содержащаяся в данных дискурса, осталась бы недоступной для ученых.

Информация о структурных данных языка доступна как для английского, так и для других языков, например, для японского . С помощью вычислительных методов были проанализированы японские корпуса предложений, и была обнаружена закономерность логарифмической нормальности в зависимости от длины предложения. Хотя точная причина этой логнормальности остается неизвестной, именно такую ​​информацию компьютерная лингвистика призвана выявить. Эта информация может привести к дальнейшим важным открытиям, касающимся основной структуры японского языка, и может иметь любое количество эффектов на понимание японского языка как языка. Вычислительная лингвистика позволяет очень быстро пополнять базу научных знаний, не оставляя места для сомнений.

Без вычислительного подхода к структуре лингвистических данных большая часть информации, доступной сейчас, все равно была бы скрыта под огромным объемом данных на любом отдельном языке. Вычислительная лингвистика позволяет ученым надежно и эффективно анализировать огромные объемы данных, создавая возможность для открытий, которых нет в большинстве других подходов.

Производственные подходы

Производство языка является столь же сложным в предоставляемой информации и необходимых навыках , которые свободно говорят производитель должен иметь. То есть понимание - это только половина проблемы общения. Другая половина - это то, как система производит язык, и компьютерная лингвистика сделала интересные открытия в этой области.

Алан Тьюринг : компьютерный ученый и одноименный разработчик теста Тьюринга как метода измерения интеллекта машины

В уже известной статье, опубликованной в 1950 году, Алан Тьюринг высказал предположение о возможности того, что однажды машины смогут «думать». В качестве мысленного эксперимента для того, что могло бы определить концепцию мышления в машинах, он предложил «имитационный тест», в котором человеческий субъект ведет два текстовых разговора, один с другим человеком, а другой с машиной, пытающейся реагировать как человек. . Тьюринг предполагает, что, если субъект не может отличить человека от машины, можно сделать вывод, что машина способна мыслить. Сегодня этот тест известен как тест Тьюринга и остается важной идеей в области искусственного интеллекта.

Джозеф Вайценбаум : бывший профессор Массачусетского технологического института и ученый-компьютерщик, разработавший ELIZA , примитивную компьютерную программу, использующую обработку естественного языка .

Одним из самых ранних и наиболее известных примеров компьютерной программы, предназначенной для естественного общения с людьми, является программа ELIZA, разработанная Джозефом Вайценбаумом из Массачусетского технологического института в 1966 году. Программа имитировала роджерианского психотерапевта, отвечая на письменные утверждения и вопросы, заданные пользователем. Казалось, он способен понимать, что ему говорят, и разумно реагировать, но на самом деле он просто следовал процедуре сопоставления с образцом, которая полагалась только на понимание нескольких ключевых слов в каждом предложении. Его ответы были получены путем объединения неизвестных частей предложения вокруг правильно переведенных версий известных слов. Например, во фразе «Кажется, вы меня ненавидите» ELIZA понимает «вы» и «меня», что соответствует общему шаблону «вы [несколько слов] меня», позволяя ELIZA обновлять слова «вы» и «я». на «Я» и «ты» и отвечая: «Почему ты думаешь, что я тебя ненавижу?». В этом примере ELIZA не понимает слова «ненависть», но это не требуется для логического ответа в контексте этого типа психотерапии.

Некоторые проекты все еще пытаются решить проблему, из-за которой компьютерная лингвистика была изначально сферой деятельности. Однако методы стали более совершенными, и, следовательно, результаты, полученные компьютерными лингвистами, стали более информативными. Чтобы улучшить компьютерный перевод , было проведено сравнение нескольких моделей, в том числе скрытых марковских моделей , методов сглаживания и конкретных усовершенствований тех, которые применяются к переводу глаголов. Модель, которая, как было обнаружено, давала наиболее естественные переводы немецких и французских слов, была усовершенствованной моделью согласования с зависимостью первого порядка и моделью фертильности. Они также предоставляют эффективные алгоритмы обучения для представленных моделей, которые могут дать другим ученым возможность улучшить свои результаты. Этот тип работы специфичен для компьютерной лингвистики и имеет приложения, которые могут значительно улучшить понимание того, как язык создается и воспринимается компьютерами.

Также была проделана работа по созданию компьютеров более естественным образом. Используя лингвистический ввод от людей, были созданы алгоритмы, которые могут изменять стиль производства системы на основе такого фактора, как лингвистический ввод от человека, или более абстрактных факторов, таких как вежливость или любое из пяти основных измерений личности . В этой работе используется вычислительный подход с использованием моделей оценки параметров, чтобы классифицировать широкий спектр языковых стилей, которые мы видим у разных людей, и упростить его для компьютера, чтобы он работал таким же образом, что делает взаимодействие человека и компьютера намного более естественным.

Текстовый интерактивный подход

Многие из самых ранних и простых моделей взаимодействия человека с компьютером, такие как, например, ELIZA, предполагают ввод текста от пользователя для генерации ответа от компьютера. С помощью этого метода слова, вводимые пользователем, заставляют компьютер распознавать определенные шаблоны и отвечать соответствующим образом посредством процесса, известного как определение ключевых слов .

Речевой интерактивный подход

В последних технологиях больше внимания уделяется речевым интерактивным системам. Эти системы, такие как Siri в операционной системе iOS , работают по той же методике распознавания образов, что и текстовые системы, но в первой из них пользовательский ввод осуществляется посредством распознавания речи . Эта ветвь лингвистики включает в себя обработку речи пользователя в виде звуковых волн и интерпретацию акустических и языковых паттернов, чтобы компьютер распознал ввод.

Понимание подходов

Большая часть внимания современной компьютерной лингвистики уделяется пониманию. С распространением Интернета и обилием легкодоступного письменного человеческого языка способность создавать программы, способные понимать человеческий язык, будет иметь множество широких и захватывающих возможностей, включая улучшенные поисковые системы, автоматическое обслуживание клиентов и онлайн-образование.

Ранняя работа в области понимания включала применение байесовской статистики к задаче оптического распознавания символов, как это проиллюстрировали Бледсо и Брауинг в 1959 году, в которых большой словарь возможных букв был создан путем «обучения» на примерах букв и затем на вероятности того, что любой из них выученные примеры соответствовали новым входным данным, которые были объединены для принятия окончательного решения. Другие попытки применить байесовскую статистику к языковому анализу включали работу Мостеллера и Уоллеса (1963), в которой анализ слов, используемых в «Записках федералиста», использовался для попытки определить их авторство (заключая, что Мэдисон, скорее всего, является автором большинства документы).

В 1971 году Терри Виноград разработал ранний механизм обработки естественного языка, способный интерпретировать естественно написанные команды в простой среде, управляемой правилами. Программа синтаксического анализа основного языка в этом проекте называлась SHRDLU , которая была способна вести отчасти естественный диалог с пользователем, дававшим ему команды, но только в рамках игрушечной среды, разработанной для этой задачи. Эта среда состояла из блоков разной формы и цвета, и SHRDLU был способен интерпретировать такие команды, как «Найдите блок, который выше, чем тот, который вы держите, и поместите его в коробку». и задавать такие вопросы, как «Я не понимаю, о какой пирамиде вы имеете в виду». в ответ на ввод пользователя. Несмотря на то, что такая обработка естественного языка впечатляет, она оказалась намного более сложной за пределами ограниченной области игрушечной среды. Точно так же проект, разработанный НАСА под названием LUNAR, был разработан, чтобы дать ответы на естественно написанные вопросы о геологическом анализе лунных горных пород, возвращенных миссиями Apollo. Такие проблемы называются ответами на вопросы .

Первоначальные попытки понять разговорный язык были основаны на работе, проделанной в 1960-х и 1970-х годах по моделированию сигналов, когда неизвестный сигнал анализируется для поиска закономерностей и прогнозирования на основе его истории. Первоначальный и в некоторой степени успешный подход к применению этого вида моделирования сигналов к языку был достигнут с использованием скрытых марковских моделей, подробно описанных Рабинером в 1989 году. Этот подход пытается определить вероятности для произвольного числа моделей, которые могут быть использованы при генерации речь, а также моделирование вероятностей для различных слов, сгенерированных из каждой из этих возможных моделей. Подобные подходы использовались в ранних попытках распознавания речи, начиная с конца 70-х годов в IBM, с использованием пар вероятностей слово / часть речи.

Совсем недавно эти виды статистических подходов стали применяться к более сложным задачам, таким как идентификация темы с использованием оценки байесовских параметров для определения вероятностей темы в текстовых документах.

Приложения

Прикладная компьютерная лингвистика во многом эквивалентна обработке естественного языка . Примеры приложений для конечных пользователей включают программное обеспечение для распознавания речи, такое как функция Apple Siri, инструменты проверки орфографии, программы синтеза речи , которые часто используются для демонстрации произношения или помощи инвалидам, а также программы и веб-сайты машинного перевода, такие как Google Translate.

Вычислительная лингвистика также полезна в ситуациях, связанных с социальными сетями и Интернетом , например, для обеспечения фильтров контента в чатах или при поиске на веб-сайтах, для группировки и организации контента с помощью интеллектуального анализа данных в социальных сетях , поиска документов и кластеризации. Например, если человек ищет «красный, большой четырехколесный автомобиль», чтобы найти изображения красного грузовика, поисковая машина все равно найдет нужную информацию, сопоставив такие слова, как «четырехколесный» с «автомобилем».

Вычислительные подходы также важны для поддержки лингвистических исследований, например, в корпусной лингвистике или исторической лингвистике . Что касается изучения изменений во времени, вычислительные методы могут способствовать моделированию и идентификации языковых семей (см. Дальнейшую количественную сравнительную лингвистику или филогенетику ), а также моделированию изменений звука и значения.

Наследие

Тема компьютерной лингвистики неоднократно влияла на популярную культуру:

Смотрите также

использованная литература

дальнейшее чтение

  • Бейтс, М. (1995). «Модели понимания естественного языка» . Труды Национальной академии наук Соединенных Штатов Америки . 92 (22): 9977–9982. Bibcode : 1995PNAS ... 92.9977B . DOI : 10.1073 / pnas.92.22.9977 . PMC  40721 . PMID  7479812 .
  • Стивен Берд, Юэн Кляйн и Эдвард Лопер (2009). Обработка естественного языка с помощью Python . O'Reilly Media. ISBN  978-0-596-51649-9 .
  • Дэниел Джурафски и Джеймс Х. Мартин (2008). Обработка речи и языка , 2-е издание. Пирсон Прентис Холл. ISBN  978-0-13-187321-6 .
  • Мохамед Закария КУРДИ (2016). Обработка естественного языка и компьютерная лингвистика: речь, морфология и синтаксис , Том 1. ISTE-Wiley. ISBN  978-1848218482 .
  • Мохамед Закария КУРДИ (2017). Обработка естественного языка и компьютерная лингвистика: семантика, дискурс и приложения , Том 2. ISTE-Wiley. ISBN  978-1848219212 .

внешние ссылки