Вокодер -Vocoder
Вокодер ( / ˈ v oʊ k oʊ d ər / , портмоне из голоса и кодировщика ) — это категория кодирования речи , которая анализирует и синтезирует сигнал человеческого голоса для сжатия аудиоданных , мультиплексирования , шифрования голоса или преобразования голоса.
Вокодер был изобретен в 1938 году Гомером Дадли в Bell Labs как средство синтеза человеческой речи. Эта работа была разработана в канальный вокодер , который использовался в качестве голосового кодека для телекоммуникаций для кодирования речи для экономии полосы пропускания при передаче.
Зашифровав управляющие сигналы, можно защитить передачу голоса от перехвата. Его основное использование таким образом - для безопасной радиосвязи. Преимущество этого метода шифрования в том, что не передаются исходные сигналы, а только огибающие полосовых фильтров. Приемный блок должен быть настроен на ту же конфигурацию фильтра, чтобы повторно синтезировать версию исходного спектра сигнала.
Вокодер также широко использовался в качестве электронного музыкального инструмента . Часть декодера вокодера, называемая водером , может использоваться независимо для синтеза речи.
Теория
Человеческий голос состоит из звуков, генерируемых открытием и закрытием голосовой щели голосовыми связками , что создает периодическую форму волны со многими гармониками . Этот основной звук затем фильтруется носом и горлом (сложная резонансная система труб), чтобы контролируемым образом создавать различия в гармоническом содержании ( формантах ), создавая широкий спектр звуков, используемых в речи. Существует еще один набор звуков, известных как глухие и взрывные звуки , которые создаются или изменяются ртом по-разному.
Вокодер исследует речь, измеряя изменение ее спектральных характеристик во времени. Это приводит к серии сигналов, представляющих эти частоты в любой конкретный момент времени, когда пользователь говорит. Проще говоря, сигнал разбивается на несколько частотных диапазонов (чем больше это число, тем точнее анализ), и уровень сигнала, присутствующий в каждом частотном диапазоне, дает мгновенное представление о спектральном энергетическом содержании. Чтобы воссоздать речь, вокодер просто обращает процесс, обрабатывая источник широкополосного шума, пропуская его через этап, который фильтрует частотный контент на основе первоначально записанного ряда чисел.
В частности, в кодере вход проходит через многополосный фильтр , затем выход каждой полосы измеряется с помощью повторителя огибающей , и сигналы от повторителей огибающей передаются в декодер. Декодер подает их в качестве управляющих сигналов на соответствующие усилители выходных каналов фильтра.
Информация о мгновенной частоте исходного речевого сигнала (в отличие от его спектральной характеристики) отбрасывается; было не важно сохранить это для первоначального использования вокодера в качестве средства шифрования. Именно этот «бесчеловечный» аспект процесса вокодирования сделал его полезным для создания специальных голосовых эффектов в популярной музыке и аудиоразвлечениях.
Вместо поточечного воссоздания сигнала процесс вокодера отправляет по каналу связи только параметры модели вокала. Поскольку параметры изменяются медленно по сравнению с исходной формой речевого сигнала, полоса пропускания, необходимая для передачи речи, может быть уменьшена. Это позволяет большему количеству речевых каналов использовать данный канал связи , такой как радиоканал или подводный кабель .
Аналоговые вокодеры обычно анализируют входящий сигнал, разделяя его на несколько настроенных частотных диапазонов или диапазонов. Для восстановления сигнала несущий сигнал проходит через ряд этих настроенных полосовых фильтров . В примере типичного голоса робота несущей является шум или пилообразный сигнал . Обычно их от 8 до 20.
Амплитуда модулятора для каждой отдельной полосы анализа генерирует напряжение, которое используется для управления усилителями для каждой из соответствующих полос несущей. В результате частотные компоненты модулирующего сигнала отображаются на сигнал несущей по мере изменения дискретной амплитуды в каждой из полос частот.
Часто присутствует невокализованная полоса или шипящий канал. Это относится к частотам, которые находятся за пределами диапазонов анализа типичной речи, но все же важны для речи. Примерами могут служить слова, начинающиеся с букв s , f , ch или любого другого шипящего звука. Использование этого диапазона позволяет получить узнаваемую речь, хотя и с несколько «механическим» звучанием. Вокодеры часто включают вторую систему для генерации глухих звуков, используя генератор шума вместо основной частоты . Это смешивается с выходным сигналом несущей для повышения четкости.
В алгоритме канального вокодера среди двух компонентов аналитического сигнала учет только амплитудного компонента и простое игнорирование фазового компонента приводит к нечеткому голосу; о способах исправления этого см. фазовый вокодер .
История
Разработка вокодера была начата в 1928 году инженером Bell Labs Гомером Дадли , который получил на него патенты 21 марта 1939 года и 16 ноября 1937 года.
Чтобы продемонстрировать способность синтеза речи секции декодера, водер (демонстратор голосовых операций) был представлен публике в здании AT&T на Всемирной выставке в Нью-Йорке 1939–1940 годов. Водер состоял из электронного осциллятора — источника звука высокого тона — и генератора шума для шипения , 10-полосных резонаторных фильтров с усилителями с переменным усилением в качестве голосового тракта и ручных контроллеров, включая набор чувствительных к давлению клавиш для управление фильтром и ножная педаль для управления высотой тона. Фильтры, управляемые клавишами, преобразуют тон и шипение в гласные , согласные и интонации . Это была сложная машина для работы, но опытный оператор мог воспроизводить распознаваемую речь.
Вокодер Дадли использовался в системе SIGSALY , которая была построена инженерами Bell Labs в 1943 году. SIGSALY применялась для зашифрованной голосовой связи во время Второй мировой войны . Голосовой кодер КО-6 был выпущен в 1949 году ограниченным тиражом; это было близкое приближение к SIGSALY со скоростью 1200 бит / с. В 1953 году голосовой кодер KY-9 THESEUS со скоростью 1650 бит / с использовал твердотельную логику для уменьшения веса до 565 фунтов (256 кг) с 55 коротких тонн (50 000 кг) SIGSALY, а в 1961 году голосовой кодер HY-2, 16-канальная система со скоростью 2400 бит / с весила 100 фунтов (45 кг) и была последней реализацией канального вокодера в системе защищенной речи.
Более поздние работы в этой области с тех пор использовали цифровое кодирование речи . Наиболее широко используемым методом кодирования речи является кодирование с линейным предсказанием (LPC), которое было впервые предложено Фумитадой Итакурой из Университета Нагоя и Сюдзо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. Другой метод кодирования речи — адаптивная дифференциальная импульсно-кодовая модуляция . (ADPCM) был разработан П. Каммиски, Никилом С. Джаянтом и Джеймсом Л. Фланаганом в Bell Labs в 1973 году.
Приложения
- Терминальное оборудование для систем на базе цифровой мобильной радиосвязи (DMR).
- Цифровой транкинг
- DMR TDMA
- Цифровое скремблирование и шифрование голоса
- Цифровой беспроводной местный шлейф (WLL)
- Системы хранения и воспроизведения голоса
- Системы обмена сообщениями
- VoIP- системы
- Голосовые пейджеры
- Регенеративные цифровые голосовые повторители
- Кохлеарные импланты : вокодирование шума и тона используется для имитации эффектов кохлеарных имплантов.
- Музыкальные и другие художественные эффекты
Современные реализации
Даже при необходимости записи нескольких частот и дополнительных невокализованных звуков сжатие систем вокодера впечатляет. Стандартные системы записи речи фиксируют частоты примерно от 500 Гц до 3400 Гц, где находится большинство частот, используемых в речи, обычно с частотой дискретизации 8 кГц (немного больше частоты Найквиста ). Разрешение выборки обычно составляет 12 или более бит на разрешение выборки (стандартно 16) для конечной скорости передачи данных в диапазоне 96–128 кбит/с, но хороший вокодер может обеспечить достаточно хорошее воспроизведение голоса всего за 2,4 кбит/с данных.
Голосовые кодеры «качества междугородной связи», такие как ITU G.729, используются во многих телефонных сетях. G.729, в частности, имеет конечную скорость передачи данных 8 кбит/с с превосходным качеством голоса. G.723 обеспечивает несколько худшее качество при скоростях передачи данных 5,3 кбит/с и 6,4 кбит/с. Многие системы голосового вокодера используют более низкие скорости передачи данных, но качество голоса ниже 5 кбит/с начинает быстро падать.
Несколько систем вокодера используются в системах шифрования АНБ :
- LPC-10, FIPS Pub 137, 2400 бит/с, в котором используется кодирование с линейным предсказанием.
- Линейное предсказание с кодовым возбуждением (CELP), 2400 и 4800 бит/с, федеральный стандарт 1016, используемый в STU-III
- Дельта-модуляция с плавным изменением наклона (CVSD), 16 кбит / с, используемая в широкополосных шифраторах, таких как KY-57.
- Линейное предсказание со смешанным возбуждением (MELP), MIL STD 3005, 2400 бит / с, используется в будущем узкополосном цифровом терминале FNBDT , защищенном телефоне АНБ 21 века.
- Адаптивная дифференциальная импульсно-кодовая модуляция ( ADPCM ), бывшая ITU-T G.721, 32 кбит/с, используемая в защищенном телефоне STE .
(ADPCM не является надлежащим вокодером, а скорее кодеком формы волны. ITU объединил G.721 вместе с некоторыми другими кодеками ADPCM в G.726.)
Вокодеры также в настоящее время используются в развитии психофизики , лингвистики , вычислительной нейробиологии и исследованиях кохлеарных имплантов .
Современные вокодеры, которые сегодня используются в коммуникационном оборудовании и в устройствах хранения голоса, основаны на следующих алгоритмах:
- Алгебраическое линейное предсказание с кодовым возбуждением (ACELP 4,7 кбит/с – 24 кбит/с)
- Линейное предсказание со смешанным возбуждением (MELPe 2400, 1200 и 600 бит/с)
- Многополосное возбуждение (AMBE 2000 бит/с – 9600 бит/с)
- Синусоидально-импульсное представление (SPR 600 бит/с – 4800 бит/с)
- Надежная усовершенствованная интерполяция сигналов низкой сложности (RALCWI 2050 бит/с, 2400 бит/с и 2750 бит/с)
- Трехволновое линейное предсказание с возбуждением (TWELP 600 бит/с – 9600 бит/с)
- Шумоустойчивый вокодер (NRV 300 бит/с и 800 бит/с)
Основанный на линейном предсказании
С конца 1970-х годов большинство немузыкальных вокодеров были реализованы с использованием линейного предсказания , посредством чего спектральная огибающая целевого сигнала (форманта) оценивается с помощью всеполюсного БИХ - фильтра . В кодировании с линейным предсказанием всеполюсный фильтр заменяет набор полосовых фильтров своего предшественника и используется в кодере для отбеливания сигнала (т. е. выравнивания спектра) и снова в декодере для повторного применения формы спектра цели. речевой сигнал.
Одним из преимуществ этого типа фильтрации является то, что расположение спектральных пиков линейного предиктора полностью определяется целевым сигналом и может быть настолько точным, насколько это позволяет фильтруемый период времени. Это отличается от вокодеров, реализованных с использованием банков фильтров фиксированной ширины, где спектральные пики обычно могут быть определены только как находящиеся в пределах заданной полосы частот. LP-фильтрация также имеет недостатки, заключающиеся в том, что сигналы с большим количеством составляющих частот могут превышать количество частот, которые могут быть представлены фильтром линейного предсказания. Это ограничение является основной причиной того, что LP-кодирование почти всегда используется в тандеме с другими методами в голосовых кодерах с высокой степенью сжатия.
Волновая интерполяция
Вокодер с интерполяцией формы волны (WI) был разработан в AT&T Bell Laboratories примерно в 1995 году WB Kleijn, а впоследствии AT&T разработала упрощенную версию для конкурса безопасных вокодеров Министерства обороны США. Заметные усовершенствования кодера WI были внесены в Калифорнийский университет в Санта-Барбаре . AT&T владеет основными патентами, связанными с WI, а другие институты владеют дополнительными патентами.
Художественные эффекты
Использование в музыке
Для музыкальных приложений в качестве несущей используется источник музыкальных звуков, а не извлечение основной частоты. Например, можно использовать звук синтезатора в качестве входных данных для набора фильтров — метод, ставший популярным в 1970-х годах.
История
Вернер Мейер-Эпплер , немецкий ученый, проявляющий особый интерес к электронному синтезу голоса, в 1948 году опубликовал диссертацию об электронной музыке и синтезе речи с точки зрения синтеза звука . Позже он сыграл важную роль в основании Студии электронной музыки WDR в Кёльне в 1951 году.
Одной из первых попыток использовать вокодер в создании музыки был «Siemens Synthesizer» в Siemens Studio for Electronic Music, разработанный между 1956 и 1959 годами.
В 1968 году Роберт Муг разработал один из первых твердотельных музыкальных вокодеров для студии электронной музыки Университета в Буффало .
В 1968 году Брюс Хаак построил прототип вокодера, названный «Фарад» в честь Майкла Фарадея . Впервые он был показан на "The Electronic Record For Children", выпущенном в 1969 году, а затем на его рок-альбоме The Electric Lucifer , выпущенном в 1970 году.
В 1970 году Венди Карлос и Роберт Муг построили еще один музыкальный вокодер, десятиполосное устройство, вдохновленное конструкциями вокодера Гомера Дадли . Первоначально он назывался кодером-декодером спектра, а позже стал называться просто вокодер. Несущий сигнал поступал от модульного синтезатора Moog , а модулятор — с микрофонного входа. Выходной сигнал десятиполосного вокодера был довольно разборчив, но основывался на специально артикулированной речи . В некоторых вокодерах используется фильтр верхних частот, чтобы пропустить некоторые шипящие звуки из микрофона; это разрушает устройство для его исходного приложения для кодирования речи, но делает эффект говорящего синтезатора намного более понятным.
В 1972 году Исао Томита выпустил первый альбом электронной музыки Electric Samurai: Switched on Rock , который был ранней попыткой применить технику синтеза речи через вокодер в электронной рок- и поп-музыке . В альбоме представлены электронные версии современных рок- и поп- песен с использованием синтезированных голосов вместо человеческих голосов. В 1974 году он использовал синтезированные голоса в своем популярном альбоме классической музыки Snowflakes are Dancing , который имел всемирный успех и помог популяризировать электронную музыку.
В 1973 году британская группа Emerson, Lake and Palmer использовала вокодер в своем альбоме Brain Salad Surgery для песни « Karn Evil 9: 3rd Impression ».
В песне 1975 года " The Raven " из альбома Tales of Mystery and Imagination группы The Alan Parsons Project Алан Парсонс исполняет вокал через вокодер EMI. Согласно примечаниям к альбому, "The Raven" была первой рок-песней, в которой использовался цифровой вокодер.
Pink Floyd также использовали вокодер на трех своих альбомах, сначала на альбоме Animals 1977 года для песен «Sheep» и «Pigs (Three Different Ones)», затем на «A Momentary Lapse of Reason » на «A New Machine Part 1» и « A Momentary Lapse of Reason». A New Machine Part 2» (1987) и, наконец, на The Division Bell 1994 года , на «Keep Talking».
Оркестр Electric Light Orchestra был одним из первых, кто использовал вокодер в коммерческом контексте, в своем альбоме 1977 года Out of the Blue . Группа широко использует его на альбоме, в том числе в хитах " Sweet Talkin' Woman " и " Mr. Blue Sky ". На следующих альбомах группа время от времени использовала его, особенно в своих хитах « The Diary of Horace Wimp » и « Confusion » из альбома Discovery 1979 года , треках «Prologue», «Yours Truly, 2095» и «Epilogue». на их альбоме Time 1981 года и « Calling America » на их альбоме Balance of Power 1986 года .
В конце 1970-х французский дуэт Space Art использовал вокодер во время записи своего второго альбома Trip in the Center Head .
Фил Коллинз использовал вокодер для создания вокального эффекта для своего международного хита 1981 года « In the Air Tonight ».
Вокодеры время от времени появлялись на поп-записях, чаще всего просто как спецэффект, а не как отдельный аспект произведения. Тем не менее, многие экспериментальные электронные исполнители жанра музыки нью-эйдж часто используют вокодер более комплексно в конкретных работах, например, Жан-Мишель Жарр (на Zoolook , 1984) и Майк Олдфилд (на QE2 , 1980 и Five Miles Out , 1982).
Модуль вокодера и его использование М. Олдфилдом хорошо видны на его DVD "Live At Montreux 1981" (трек "Sheba").
Есть также некоторые артисты, которые сделали вокодер неотъемлемой частью своей музыки, в целом или на расширенной фазе. Примеры включают немецкую синти -поп- группу Kraftwerk , японскую группу новой волны Polysics , Стиви Уандера («Send One Your Love», «A Seed's a Star») и джазового/фьюжн-клавишника Херби Хэнкока во время его периода конца 1970-х годов. В 1982 году Нил Янг использовал вокодер Sennheiser VSM201 на шести из девяти треков Trans . Припев и проигрыш Майкла Джексона « PYT (Pretty Young Thing) ». имеет вокодер ("Довольно молодая штучка/Ты заставляешь меня петь"), любезно предоставленный сессионным музыкантом Майклом Боддикером .
Coldplay использовали вокодер в некоторых своих песнях. Например, в « Major Minus » и « Hurts Like Heaven » из альбома Mylo Xyloto (2011) вокал Криса Мартина в основном обработан вокодером. « Полночь » из « Историй о привидениях» (2014) также показывает, как Мартин поет через вокодер. Скрытый трек «X Marks the Spot» из « A Head Full of Dreams » также был записан с помощью вокодера.
Группа Noisecore Atari Teenage Riot использовала вокодер в различных своих песнях и живых выступлениях, таких как Live at the Brixton Academy (2002), наряду с другими цифровыми аудиотехнологиями, как старыми, так и новыми.
В песне Red Hot Chili Peppers « By the Way » используется эффект вокодера на вокале Энтони Кидиса .
Среди наиболее последовательных применений вокодера для имитации человеческого голоса — Daft Punk , которые использовали этот инструмент со своего первого альбома Homework (1997) до своей последней работы Random Access Memories (2013) и считают конвергенцию технологического и человеческого голоса «самым идентичность их музыкального проекта». Например, лирика « Around the World » (1997) полностью обработана вокодером, « Get Lucky » (2013) представляет собой смесь натуральных и обработанных человеческих голосов, а « Instant Crush » (2013) показывает, как Джулиан Касабланкас поет в вокодер.
Продюсер Зедд , американская кантри-певица Марен Моррис и американский музыкальный дуэт Грей написали песню под названием « The Middle », которая использовала вокодер и вошла в десятку лучших чартов в 2018 году.
Голосовые эффекты в других искусствах
«Голоса роботов» стали постоянным элементом популярной музыки 20 века. Помимо вокодеров, несколько других методов создания вариаций этого эффекта включают: Sonovox , Talk box и Auto-Tune , вокодер с линейным предсказанием, синтез речи , кольцевую модуляцию и гребенчатый фильтр .
Вокодеры используются в телевизионном производстве , кинопроизводстве и играх, обычно для роботов или говорящих компьютеров. Голоса роботов Сайлонов в Battlestar Galactica были созданы с помощью вокодера EMS 2000. Версия темы « Доктор Кто » 1980 года , аранжированная и записанная Питером Хауэллом , имеет часть основной мелодии, сгенерированную вокодером Roland SVC-350. Аналогичный вокодер Roland VP-330 использовался для создания голоса Саундвейва , персонажа из серии « Трансформеры ».
Смотрите также
- Модификация высоты тона временной шкалы аудио
- Автонастройка
- Гомер Дадли
- Список вокодеров
- Фазовый вокодер
- Бесшумный речевой интерфейс
- Разговорная коробка
- Вернер Мейер-Эпплер
использованная литература
- Мультимедийные ссылки
внешние ссылки
- «Как работают вокодеры» . ПАИА. Архивировано из оригинала 07 сентября 2011 г.
- Описание, фотографии и схема вокодера на 120years.net.
- «Курс Матса Клаессона в Vokator» . Архивировано из оригинала 06 марта 2016 г.Описание современного вокодера.
- Реализация GPL вокодера в виде плагина LADSPA
- Статья О'Рейли о вокодерах
- Объект интереса: мини-документальный фильм журнала The New Yorker Magazine о вокодере.