Поиск информации на разных языках - Cross-language information retrieval

Поиск информации на нескольких языках ( CLIR ) - это подполе поиска информации, имеющее дело с получением информации, написанной на языке, отличном от языка запроса пользователя. Термин «поиск информации на нескольких языках» имеет много синонимов, из которых, возможно, наиболее часто встречаются следующие: поиск информации на нескольких языках, поиск информации на разных языках, поиск информации на нескольких языках . Термин « поиск многоязычной информации » в более общем смысле относится как к технологии поиска многоязычных коллекций, так и к технологии, которая была перемещена для обработки материалов с одного языка на другой. Термин «многоязычный поиск информации» (MLIR) включает в себя изучение систем, которые принимают запросы на информацию на разных языках и возвращают объекты (текст и другие носители) на разных языках, переведенные на язык пользователя. Кросс-языковой поиск информации относится, в частности, к варианту использования, когда пользователи формулируют свои информационные потребности на одном языке, а система извлекает соответствующие документы на другом. Для этого в большинстве систем CLIR используются различные методы перевода. Методы CLIR можно разделить на разные категории на основе разных переводческих ресурсов:

  • Методики CLIR на основе словарей
  • Методы CLIR на основе параллельных корпусов
  • Методы CLIR на основе сопоставимых корпусов
  • Методы CLIR на основе машинного переводчика

Системы CLIR настолько улучшились, что самые точные многоязычные и межъязыковые специализированные системы поиска информации сегодня почти так же эффективны, как и одноязычные системы. Другие связанные задачи доступа к информации, такие как мониторинг мультимедиа , фильтрация и маршрутизация информации, анализ тональности и извлечение информации, требуют более сложных моделей и, как правило, большей обработки и анализа интересующих элементов информации. Большая часть этой обработки должна учитывать специфику целевых языков, на которых она развернута.

В основном, различные механизмы вариации человеческого языка создают проблемы охвата для информационно-поисковых систем: тексты в коллекции могут относиться к интересующей теме, но использовать термины или выражения, которые не соответствуют выражению потребности в информации, данной пользователем. Это может быть верно даже в случае одноязычного общения, но это особенно верно при поиске информации на нескольких языках, когда пользователи могут знать целевой язык лишь в некоторой степени. Было обнаружено, что преимущества технологии CLIR для пользователей с низким или средним уровнем владения целевым языком больше, чем для тех, кто свободно владеет. Конкретные технологии , применяемые для служб CLIR, включают морфологический анализ для обработки словоизменения , декомпаундирования или составного разбиения для обработки составных терминов , а также механизмы перевода для перевода запроса с одного языка на другой.

Первый семинар по CLIR прошел в Цюрихе во время конференции SIGIR-96. Семинары проводятся ежегодно с 2000 года на заседаниях Форума межъязыковой оценки (CLEF). Исследователи также собираются на ежегодную конференцию по поиску текста (TREC), чтобы обсудить свои выводы, касающиеся различных систем и методов поиска информации, и конференция послужила точкой отсчета для подполя CLIR.

В Google Search была функция поиска на нескольких языках, которая была удалена в 2013 году.

Смотрите также

  • EXCLAIM (расширяемая кросс-лингвистическая автоматическая информационная машина)
  • CLEF (Конференция и лаборатории Форума оценки, ранее известного как Форум межъязыковой оценки)
  • MLIR ( поиск многоязычной информации)

Рекомендации

  1. ^ Ван Jianqiang, и Дуглас У. Орд. «Соответствие значения для поиска информации на разных языках». Обработка информации и управление 48.4 (2012): 631-53.
  2. ^ Тайский, Перишан. "Введение в межъязыковые подходы к поиску информации". Интернет. Web.simmons.edu
  3. ^ Орд, Дуглас. «Многоязычный доступ к информации». Понимание систем поиска информации (2011): 373-80. Интернет.
  4. ^ Airio, Эйя (2008). "Кому выгоден CLIR при поиске в сети?" . Журнал документации . 64 (5): 760–778. DOI : 10.1108 / 00220410810899754 .
  5. ^ Материалы этого семинара можно найти в книге " Межъязыковой поиск информации" (Grefenstette, ed; Kluwer, 1998) ISBN   0-7923-8122-X .
  6. ^ Ольвера-Лобо, Мария-Долорес. «Межъязыковой поиск информации в Интернете». Справочник по исследованиям социальных аспектов семантических технологий и веб-сервисов (nd): 704-19. Интернет.
  7. ^ "Google Drops" переведенные иностранные страницы "Вариант поиска из-за отсутствия использования" . 20 мая 2013 г.

Внешние ссылки