Корпус речи - Speech corpus
Речи корпус (или произнесенное корпус ) представляет собой базу данных речевых звуковых файлов и текстовых транскрипций . В речевой технологии речевые корпуса используются, среди прочего, для создания акустических моделей (которые затем можно использовать с механизмом распознавания речи или идентификации говорящего ). В лингвистике разговорные корпуса используются для исследования фонетики , анализа разговора , диалектологии и других областей.
Корпус - одна из таких баз данных. Корпуса - множественное число от корпуса (т.е. таких баз данных много).
Есть два типа речевых корпусов:
- Прочтите речь - что включает в себя:
- Отрывки из книг
- Новости трансляции
- Списки слов
- Последовательности чисел
- Спонтанная речь, в которую входят:
- Диалоги - между двумя и более людьми (включая встречи);
- Рассказы - человек, рассказывающий историю (один из таких корпусов - Buckeye Corpus );
- Карта-задания - один человек объясняет маршрут на карте другому;
- Назначения-встречи - два человека пытаются найти общее время встречи по индивидуальному расписанию.
Особый вид речевых корпусов - это базы данных неродной речи, которые содержат речь с иностранным акцентом.
Смотрите также
- Корпус арабской речи
- Общий голос
- ЭКСМАРАЛЬДА
- Lingua Libre , онлайн НЬге инструмент
- Список детских речевых корпусов
- База данных неродной речи
- Praat
- Разговорный английский корпус
- Корпус речей BABEL
- ТИМИТ
- Транскрайбер
- Транскрипция (лингвистика)
Рекомендации
- Эдвардс, Джейн / Лэмперт, Мартин (редакторы) (1992): Говорящие данные - транскрипция и кодирование в исследовании дискурса. Хиллсдейл: Эрлбаум.
- Пиявка, Джеффри / Майерс, Грег / Томас, Дженни (редакторы) (1995): Разговорный английский на компьютере: транскрипция, разметка и применение. Харлоу: Лонгман.
Внешние ссылки
- Санта-Барбара Корпус разговорного американского английского
- Buckeye Corpus The Buckeye Corpus разговорной речи
- Разговорные языковые корпуса в Исследовательском центре многоязычия
- Разговорный турецкий корпус в METU в Анкаре
- Speken Corpus Klient с Corp-Oral Corpus в ILTEC Лиссабон
- VoxForge - речевой корпус с открытым исходным кодом
- OLAC: Сообщество открытых языковых архивов
- Баварский архив речевых сигналов BAS
- Корпус распознавания речи Simmortel для индийского английского и хинди
- ELRA: Европейская ассоциация языковых ресурсов
- Разговорный корпус польского языка PELCRA
- Корпус арабской речи
- Корпус политических выступлений : свободный доступ к политическим выступлениям американских и китайских политиков, разработанный библиотекой Гонконгского баптистского университета.