Корпус речи - Speech corpus

Речи корпус (или произнесенное корпус ) представляет собой базу данных речевых звуковых файлов и текстовых транскрипций . В речевой технологии речевые корпуса используются, среди прочего, для создания акустических моделей (которые затем можно использовать с механизмом распознавания речи или идентификации говорящего ). В лингвистике разговорные корпуса используются для исследования фонетики , анализа разговора , диалектологии и других областей.

Корпус - одна из таких баз данных. Корпуса - множественное число от корпуса (т.е. таких баз данных много).

Есть два типа речевых корпусов:

  1. Прочтите речь - что включает в себя:
    • Отрывки из книг
    • Новости трансляции
    • Списки слов
    • Последовательности чисел
  2. Спонтанная речь, в которую входят:
    • Диалоги - между двумя и более людьми (включая встречи);
    • Рассказы - человек, рассказывающий историю (один из таких корпусов - Buckeye Corpus );
    • Карта-задания - один человек объясняет маршрут на карте другому;
    • Назначения-встречи - два человека пытаются найти общее время встречи по индивидуальному расписанию.

Особый вид речевых корпусов - это базы данных неродной речи, которые содержат речь с иностранным акцентом.

Смотрите также

Рекомендации

  • Эдвардс, Джейн / Лэмперт, Мартин (редакторы) (1992): Говорящие данные - транскрипция и кодирование в исследовании дискурса. Хиллсдейл: Эрлбаум.
  • Пиявка, Джеффри / Майерс, Грег / Томас, Дженни (редакторы) (1995): Разговорный английский на компьютере: транскрипция, разметка и применение. Харлоу: Лонгман.

Внешние ссылки