Передаточная функция головы - Head-related transfer function

Эффект фильтрации HRTF

Функция головы , связанные передача ( HRTF ), иногда также известный как анатомо передаточной функции (ATF), является ответом , который характеризует , каким образом ухо получает звуковой сигнал из точки в пространстве. Когда звук поражает слушателя, размер и форма головы, ушей, слухового прохода, плотность головы, размер и форма носовых и ротовых полостей - все это преобразует звук и влияет на его восприятие, повышая одни частоты и ослабляя другие. . Вообще говоря, HRTF повышает частоты с 2–5 кГц с первичным резонансом +17 дБ на частоте 2700 Гц. Но кривая отклика более сложна, чем одиночный выступ, влияет на широкий частотный спектр и значительно варьируется от человека к человеку.

Пара HRTF для двух ушей может использоваться для синтеза бинаурального звука, который, кажется, исходит из определенной точки пространства. Это передаточная функция , описывающая, как звук из определенной точки попадает в ухо (обычно на внешний конец слухового прохода ). Некоторые бытовые продукты для домашних развлечений, предназначенные для воспроизведения объемного звука через стереонаушники (с двумя динамиками), используют HRTF. Некоторые формы HRTF-обработки также были включены в компьютерное программное обеспечение для имитации воспроизведения объемного звука из динамиков.

У людей всего два уха , но они могут определять местонахождение звуков в трех измерениях - в диапазоне (расстояние), в направлении вверх и вниз (высота), спереди и сзади, а также в любую сторону (азимут). Это возможно, потому что мозг, внутреннее ухо и наружное ухо ( ушная раковина ) работают вместе, чтобы сделать выводы о местоположении. Эта способность локализовать источники звука могла развиться у людей и предков как эволюционная необходимость, поскольку глаза могут видеть только часть мира вокруг зрителя, а зрение затруднено в темноте, в то время как способность локализовать источник звука работает в во всех направлениях с различной точностью, независимо от окружающего освещения.

Люди оценивают местонахождение источника, принимая сигналы, поступающие от одного уха ( монофонические сигналы ), и сравнивая сигналы, полученные обоими ушами ( сигналы различий или бинауральные сигналы ). Среди отличительных признаков - разница во времени прибытия и разница в интенсивности. Монауральные сигналы возникают в результате взаимодействия между источником звука и анатомией человека, при котором исходный исходный звук изменяется до того, как он попадает в слуховой проход для обработки слуховой системой. Эти модификации кодируют местоположение источника и могут быть зафиксированы с помощью импульсной характеристики, которая связывает местоположение источника и местоположение уха. Этот импульсный отклик называется импульсным откликом, связанным с головой (HRIR). Свертка произвольного источника звука с помощью HRIR преобразует звук в звук, который слушатель мог бы услышать, если бы он воспроизводился в месте источника, а ухо слушателя находилось в месте приема. HRIR использовались для создания виртуального объемного звука.

HRTF - это преобразование Фурье HRIR.

HRTF для левого и правого уха (выраженные выше как HRIR) описывают фильтрацию источника звука ( x ( t )) до того, как он будет восприниматься левым и правым ухом как x L ( t ) и x R ( t ), соответственно.

HRTF также можно описать как модификации звука от направления в свободном воздухе до звука, когда он достигает барабанной перепонки . Эти изменения включают форму внешнего уха слушателя, форму головы и тела слушателя, акустические характеристики пространства, в котором воспроизводится звук, и так далее. Все эти характеристики будут влиять на то, как (и сможет ли) слушатель точно определить, с какого направления исходит звук.

В AES69-2015 стандарту, Audio Engineering Society (AES) , определил формат файла для хранения SOFA пространственно ориентированных акустических данных , как функции относящихся к голове (HRTF , ). Библиотеки и файлы программного обеспечения SOFA собраны на веб-сайте Sofa Conventions.

Как работает HRTF

Связанный с этим механизм различается у разных людей, так как их голова и форма ушей различаются.

HRTF описывает, как входная звуковая волна (параметризованная как частота и местоположение источника) фильтруется за счет свойств дифракции и отражения головы , ушной раковины и туловища , прежде чем звук достигнет трансдукционного аппарата барабанной перепонки и внутреннего уха (см. Слуховая система ). С биологической точки зрения, эффекты предварительной фильтрации этих внешних структур, зависящие от местоположения источника , помогают в нейронном определении местоположения источника , особенно в определении высоты источника (см. Вертикальную локализацию звука ).

Техническое происхождение

Пример АЧХ ушей:
  • зеленая кривая : левое ухо   X L ( f )
  • синяя кривая : правое ухо X R ( f )
для источника звука снизу вверх.
Пример того, как определяется наклон HRTF с азимутом, взятым из опорной точки.

Анализ линейных систем определяет передаточную функцию как комплексное соотношение между спектром выходного сигнала и спектром входного сигнала как функцию частоты. Blauert (1974; цитируется по Blauert, 1981) первоначально определил передаточную функцию как передаточную функцию в свободном поле (FFTF). Другие термины включают передаточную функцию свободного поля в барабанную перепонку и преобразование давления из свободного поля в барабанную перепонку. Менее конкретные описания включают передаточную функцию ушной раковины, передаточную функцию наружного уха , реакцию ушной раковины или функцию направленной передачи (DTF).

Передаточная функция H ( f ) любой линейной инвариантной во времени системы на частоте f равна:

H ( f ) = Выход ( f ) / Вход ( f )

Таким образом, один метод, используемый для получения HRTF из заданного местоположения источника, заключается в измерении связанной с головой импульсной характеристики (HRIR), h ( t ), на барабанной перепонке для импульса Δ ( t ), помещенного в источник. HRTF H ( f ) - это преобразование Фурье HRIR h ( t ).

Даже при измерении для «манекена» идеализированной геометрии HRTF являются сложными функциями частоты и трех пространственных переменных . Однако для расстояний более 1 м от головы можно сказать, что HRTF затухает обратно пропорционально дальности. Именно это далеко поле HRTF, Н ( F , θ , φ ), который чаще всего были измерены. На более близком расстоянии разница в уровнях, наблюдаемая между ушами, может стать довольно большой даже в низкочастотной области, в пределах которой наблюдаются незначительные различия в уровнях в дальней зоне.

HRTF обычно измеряются в безэховой камере, чтобы минимизировать влияние ранних отражений и реверберации на измеряемый отклик. HRTF измеряются с небольшими приращениями θ, такими как 15 ° или 30 ° в горизонтальной плоскости, с интерполяцией, используемой для синтеза HRTF для произвольных положений θ . Однако даже с небольшими приращениями интерполяция может привести к путанице спереди и сзади, и оптимизация процедуры интерполяции является активной областью исследований.

Чтобы максимизировать отношение сигнал / шум (SNR) в измеряемой HRTF, важно, чтобы генерируемый импульс был большой громкости. На практике, однако, может быть сложно генерировать импульсы с большой громкостью, и, если они сгенерированы, они могут повредить человеческий слух, поэтому HRTF чаще всего вычисляются непосредственно в частотной области с использованием синусоидальной волны с разверткой по частоте. или с использованием последовательностей максимальной длины . Однако усталость пользователя по-прежнему является проблемой, что подчеркивает необходимость возможности интерполировать на основе меньшего количества измерений.

Связанная с головой передаточная функция участвует в разрешении конуса замешательства , ряда точек, в которых ITD и ILD идентичны для источников звука из многих мест вокруг нулевой части конуса. Когда звук воспринимается ухом, он может либо идти прямо вниз по уху в слуховой проход, либо отражаться от ушных раковин в слуховой проход через долю секунды. Звук будет содержать много частот, поэтому многие копии этого сигнала будут проходить вниз по уху в разное время в зависимости от их частоты (в зависимости от отражения, дифракции и их взаимодействия с высокими и низкими частотами, а также размера структур звука). ухо.) Эти копии накладываются друг на друга, и во время этого некоторые сигналы усиливаются (где фазы сигналов совпадают), в то время как другие копии отменяются (когда фазы сигнала не совпадают). По сути, мозг ищет в сигнале частотные отметки, соответствующие определенным известным направлениям звука.

Если бы уши другого человека были заменены, человек не смог бы сразу локализовать звук, поскольку модели усиления и отмены были бы отличны от тех моделей, к которым привыкла слуховая система человека. Однако через несколько недель слуховая система адаптировалась к новой передаточной функции головы. Межпредметная изменчивость спектров HRTF была изучена с помощью кластерного анализа.

Оценивая вариации через изменения между ухом человека, мы можем ограничить нашу перспективу степенями свободы головы и ее соотношением с пространственной областью. Благодаря этому мы устраняем наклон и другие параметры координат, которые добавляют сложности. В целях калибровки нас интересует только уровень направления к нашим ушам, следовательно, определенная степень свободы. Вот некоторые из способов, которыми мы можем вывести выражение для калибровки HRTF:

  1. Локализация звука в виртуальном слуховом пространстве
  2. HRTF Фазовый синтез
  3. HRTF Magnitude синтез

Локализация звука в виртуальном слуховом пространстве

Основное допущение при создании виртуального слухового пространства состоит в том, что если акустические волны, присутствующие в барабанных перепонках слушателя, в наушниках такие же, как и в свободном поле, то ощущения слушателя также должны быть такими же.

Обычно звуки, издаваемые наушниками, воспринимаются как исходящие изнутри головы. В виртуальном слуховом пространстве наушники должны иметь возможность «экстернализировать» звук. Используя HRTF, звуки можно пространственно позиционировать, используя технику, описанную ниже.

Пусть x 1 ( t ) представляет электрический сигнал, управляющий громкоговорителем, а y 1 ( t ) представляет сигнал, принимаемый микрофоном внутри барабанной перепонки слушателя. Аналогично, пусть x 2 ( t ) представляет электрический сигнал, управляющий наушниками, а y 2 ( t ) представляет реакцию микрофона на сигнал. Цель виртуального слухового пространства - выбрать x 2 ( t ) так, чтобы y 2 ( t ) = y 1 ( t ). Применяя преобразование Фурье к этим сигналам, мы получаем следующие два уравнения:

Y 1 = X 1 LFM и
Y 2 = X 2 HM,

где L - передаточная функция громкоговорителя в свободном поле, F - HRTF, M - передаточная функция микрофона, а H - передаточная функция от наушников к барабанной перепонке. Устанавливая Y 1 = Y 2 и решая для X 2, получаем

Х 2 = Х 1 НЧ / Н.

По наблюдениям, желаемая передаточная функция равна

Т = LF / Н .

Следовательно, теоретически, если x 1 ( t ) проходит через этот фильтр и полученный x 2 ( t ) воспроизводится в наушниках, он должен давать такой же сигнал на барабанной перепонке. Поскольку фильтр применяется только к одному уху, другой должен быть получен для другого уха. Этот процесс повторяется для многих мест в виртуальной среде, чтобы создать массив передаточных функций, связанных с головой, для каждой позиции, которую необходимо воссоздать, при этом гарантируя, что условия выборки устанавливаются критериями Найквиста .

Фазовый синтез HRTF

В очень низкой части полосы частот менее надежная оценка фазы, а в верхних частотах на фазовую характеристику влияют особенности ушной раковины. Более ранние исследования также показывают, что фазовая характеристика HRTF в основном линейна, и что слушатели нечувствительны к деталям межурального фазового спектра, пока сохраняется межуральная временная задержка (ITD) объединенной низкочастотной части формы волны. Это смоделированная фазовая характеристика HRTF объекта в виде временной задержки, зависящая от направления и высоты.

Коэффициент масштабирования зависит от антропометрических характеристик. Например, обучающий набор из N субъектов будет рассматривать каждую фазу HRTF и описывать один масштабный коэффициент ITD как среднюю задержку группы. Этот вычисленный коэффициент масштабирования может оценивать временную задержку как функцию направления и высоты для любого конкретного человека. Преобразование временной задержки в фазовую характеристику для левого и правого уха тривиально.

Фазу HRTF можно описать масштабным коэффициентом ITD . Это, в свою очередь, количественно оценивается антропометрическими данными конкретного человека, взятыми за основу. Для общего случая мы рассматриваем β как разреженный вектор

который представляет антропометрические особенности объекта как линейную суперпозицию антропометрических характеристик из обучающих данных (y ' = β T X), а затем применяет тот же разреженный вектор непосредственно к вектору масштабирования H. Мы можем записать эту задачу как задачу минимизации , для неотрицательного параметра усадки λ :

Исходя из этого, значение масштабного коэффициента ITD H ' оценивается как:

где масштабные коэффициенты ITD для всех людей в наборе данных сложены в вектор HR N , поэтому значение H n соответствует масштабному коэффициенту n-го человека.

Синтез величины HRTF

Мы решаем указанную выше задачу минимизации с помощью оператора наименьшей абсолютной усадки и выбора (LASSO). Мы предполагаем, что HRTF представлены тем же соотношением, что и антропометрические характеристики. Следовательно, как только мы узнаем разреженный вектор β из антропометрических характеристик, мы напрямую применим его к данным тензора HRTF и значениям HRTF H ' субъекта, заданным следующим образом:

где HRTF для каждого субъекта описываются тензором размера D  ×  K , где D - количество направлений HRTF, а K - количество элементов разрешения по частоте. Все H n , d , k соответствуют всем HRTF обучающего набора, укладываются в новый тензор HR N × D × K , поэтому значение H n, d, k соответствует k -ому интервалу частот для d -го HRTF направление n-го человека. Также H ' d , k соответствует k -й частоте для каждого d-го направления HRTF синтезированной HRTF.

Технология записи

Записи, обработанные с помощью HRTF, например, в компьютерной игровой среде (см. A3D , EAX и OpenAL ), которая приблизительно соответствует HRTF слушателя, можно услышать через стереонаушники или динамики и интерпретировать так, как будто они содержат звуки, исходящие со всех сторон. а не просто две точки по бокам головы. Воспринимаемая точность результата зависит от того, насколько точно набор данных HRTF соответствует характеристикам собственного уха.

Смотрите также

Рекомендации

Внешние ссылки