Корпус речи - Speech corpus

Речи корпус (или произнесенное корпус ) представляет собой базу данных речевых звуковых файлов и текстовых транскрипций . В речевой технологии речевые корпуса используются, среди прочего, для создания акустических моделей (которые затем можно использовать с механизмом распознавания речи или идентификации говорящего ). В лингвистике разговорные корпуса используются для исследования фонетики , анализа разговора , диалектологии и других областей.

Корпус - одна из таких баз данных. Корпуса - множественное число от корпуса (т.е. таких баз данных много).

Есть два типа речевых корпусов:

Прочтите речь - что включает в себя:
- Отрывки из книг
- Новости трансляции
- Списки слов
- Последовательности чисел
Спонтанная речь, в которую входят:
- Диалоги - между двумя и более людьми (включая встречи);
- Рассказы - человек, рассказывающий историю (один из таких корпусов - Buckeye Corpus );
- Карта-задания - один человек объясняет маршрут на карте другому;
- Назначения-встречи - два человека пытаются найти общее время встречи по индивидуальному расписанию.

Особый вид речевых корпусов - это базы данных неродной речи, которые содержат речь с иностранным акцентом.

Смотрите также