Общий голос - Common Voice
Разработчики) | Фонд Mozilla |
---|---|
Первый выпуск | 19 июня 2017 г . |
Репозиторий | https://github.com/mozilla/voice-web |
Доступно в | Многоязычный ( список языков ) |
Лицензия | Creative Commons CC0 |
Веб-сайт | commonvoice.mozilla.org |
Common Voice - это краудсорсинговый проект, начатый Mozilla с целью создания бесплатной базы данных для программного обеспечения распознавания речи . Проект поддерживается волонтерами, которые записывают образцы предложений с помощью микрофона и просматривают записи других пользователей. Транскрибированные предложения будут собраны в доступной под голосовой базой публичного домена лицензия CC0 . Эта лицензия гарантирует, что разработчики могут использовать базу данных для приложений преобразования голоса в текст без ограничений и затрат.
Цели
Common Voice направлен на предоставление разнообразных голосовых образцов. По словам Катарины Борхерт из Mozilla , многие существующие проекты использовали наборы данных с общественного радио или иным образом имели наборы данных, которые недопредставляли как женщин, так и людей с ярко выраженным акцентом.
Голосовая база данных
Первый набор данных был выпущен в ноябре 2017 года. Более 20000 пользователей по всему миру записали 500 часов английских предложений.
В феврале 2019 года была выпущена первая партия языков. Это включало 18 языков: английский , французский , немецкий и мандаринский китайский , а также менее распространенные языки, такие как валлийский и кабильский . В общей сложности это включало почти 1400 часов записанных голосовых данных от более чем 42000 участников.
По состоянию на июль 2020 года в базе данных накоплено 7 226 часов голосовых записей на 54 языках, 5 591 час из которых были проверены волонтерами.
В мае 2021 года, после работы по добавлению киньяруанды , они получили грант на добавление суахили .
Смотрите также
использованная литература
- ^ «Почему мы гендер ИИ? Голос технологии фирма перейти к более включительно» . Хранитель . 11 января 2020 . Проверено 19 апреля 2020 .
- ^ «Объявление о первом выпуске модели распознавания речи Mozilla с открытым исходным кодом и набора голосовых данных» . блог mozilla.org . 29 ноября 2017 года.
- ^ «Mozilla обновляет набор данных Common Voice, добавляя 1400 часов речи на 18 языках» . VentureBeat . 28 февраля 2019.
- ^ «Обновления Mozilla Common Voice помогут обучить Wakeword« Привет, Firefox »для голосового просмотра веб-страниц» . VentureBeat . 1 июля 2020. Архивировано из оригинала на 10 марта 2021 года . Проверено 1 апреля 2021 года .
- ^ «Mozilla Common Voice получает 3,4 миллиона долларов инвестиций в демократизацию и диверсификацию голосовых технологий в Восточной Африке» . Mozilla Foundation . 2021-05-25 . Источник 2021-06-03 .