Голосовой анализ - Voice analysis

Голосовой анализ - это исследование звуков речи для целей, отличных от лингвистического содержания, например, для распознавания речи . Такие исследования включают в основном медицинский анализ голоса ( фониатрия ), но также и идентификацию говорящего . Более спорно то, что некоторые считают, что правдивость или эмоциональное состояние говорящих можно определить с помощью анализа голосового напряжения или многоуровневого анализа голоса.

Методы анализа

Голосовые проблемы, требующие анализа голоса, чаще всего возникают из-за голосовых связок или мускулатуры гортани, которая их контролирует, поскольку складки подвергаются воздействию сил столкновения с каждым циклом вибрации и высыхания из-за воздуха, проталкиваемого через небольшой промежуток между ними, и мускулатура гортани очень активна во время речи или пения и подвержена утомлению. Однако динамический анализ голосовых связок и их движения физически затруднен. Расположение голосовых связок эффективно препятствует прямому инвазивному измерению движений. Менее инвазивные методы визуализации, такие как рентген или ультразвук , не работают, потому что голосовые связки окружены хрящом, что искажает качество изображения. Голосовые связки двигаются быстро, основные частоты обычно находятся в диапазоне от 80 до 300 Гц , что не позволяет использовать обычное видео. Возможны стробоскопические и высокоскоростные видеозаписи, но для того, чтобы увидеть голосовые складки, необходимо поместить оптоволоконный зонд, ведущий к камере, в горле, что затрудняет разговор. Кроме того, размещение предметов в глотке обычно вызывает рвотный рефлекс, который перестает говорить и закрывает гортань. Кроме того, стробоскопическая визуализация полезна только тогда, когда колебательный паттерн голосовых складок является очень периодическим.

Самый важный [ по мнению кого? ] косвенными методами в настоящее время являются обратная фильтрация микрофона или записей воздушного потока и электроглоттография (EGG). [ цитата необходима ] В обратной фильтрации речевой звук (излучаемая форма волны акустического давления, полученная с микрофона) или форма волны устного воздушного потока от маска с вентиляцией по окружности (CV) записывается за пределами рта и затем фильтруется математическим методом для устранения влияния речевого тракта. Этот метод оценивает голосовой вход для производства голоса путем записи выходного сигнала и использования вычислительной модели для инвертирования эффектов речевого тракта. Другой вид неинвазивной косвенной индикации движения голосовых связок - это электроглоттография, при которой электроды, расположенные по обе стороны от горла испытуемого на уровне голосовых складок, регистрируют изменения проводимости горла в зависимости от того, насколько велика часть горла. голосовые связки касаются друг друга. Таким образом, получается одномерная информация о зоне контакта. Ни обратная фильтрация, ни EGG не могут полностью описать сложный трехмерный паттерн движения голосовых связок, но могут предоставить полезные косвенные доказательства этого движения.

Другой способ провести анализ голоса - посмотреть на характеристики голоса. Некоторые характеристики голоса - это голос , высота , громкость и скорость. Эти характеристики могут использоваться для оценки голоса человека и могут помочь в процессе анализа голоса. Фонация обычно проверяется путем изучения различных типов данных, полученных от человека, таких как слова с долгими гласными, слова с множеством фонем или просто типичная речь. Уровень звука человека можно оценить, заставив человека издавать самые высокие и низкие звуки, которые он может, а также звуки между ними. В этом процессе можно использовать клавиатуру. На громкость важно смотреть, потому что для некоторых людей громкость влияет на то, как они издают определенные звуки. Некоторые люди должны говорить громче некоторых фонемы по сравнению с другими, чтобы убедиться, что они могут производить их. [ Править ] Это можно проверить, обратившись к лицу использовать такое же количество громкости во время пения шкалы. Скорость также важна, потому что она определяет, насколько быстро или медленно человек говорит.

Использование в медицине

Медицинское исследование голоса может представлять собой, например, анализ голоса пациентов, у которых в ходе операции был удален полип из голосовых связок . Для объективной оценки таких проблем можно использовать компьютеризированные методы. Опытный голосовой терапевт может достаточно надежно оценить голос, но это требует обширной подготовки и все еще является субъективным.

Еще одна активная тема исследований в области анализа голоса в медицине - оценка голосовой нагрузки . Голосовые связки человека, который говорит в течение длительного времени, страдают от утомления, то есть процесс разговора оказывает нагрузку на голосовые связки и утомляет ткани. У профессиональных пользователей голосовой связи (например, учителей, продавцов) это утомление может вызвать сбои в голосовой связи и больничные. Голосовой анализ был изучен как объективное средство для оценки таких проблем.

Голосовой анализ был важным фактором при изучении паралича голосовых связок. Он влияет на различные функции голосовых связок, от речи до дыхания, а анализ голоса используется для изучения эффективности тиропластики (медиализационной тиреопластики), улучшающей голосовые связки после операции. Традиционная запись голоса используется перед операцией для записи голосов выбранных пациентов для сравнения с использованием после операции, наряду с более сложными записями с использованием электроглоттографии , фотоглоттографии и видеокимографии . Медицинские работники имеют возможность читать и понимать результаты сложных записей, но для получения точных результатов в этих экспериментах необходимы знания голосового профессионала. Голосовые эксперты были важны для того, чтобы связать физическое обследование голосовых связок с неврологическим обследованием, чтобы гарантировать успех операции из-за их натренированного уха. Перцепционная оценка голоса в значительной степени зависит от качества голоса , фактора, который оценивается предпочтительно голосовыми специалистами ( логопедами ). Профессиональный анализатор голоса имеет натренированный слух и может блокировать лишние варианты, которые могут быть обманчивыми из результатов.

Использование в криминалистике

Голосовой анализ используется в области судебной экспертизы, называемой звуковой криминалистикой . Эти анализы обычно выполняются на доказательствах с целью оценки подлинности рассматриваемого звука, улучшения характеристик звука, которые могут быть скрыты за отвлекающим фоновым шумом, интерпретации звука с точки зрения судебного эксперта или, в некоторых случаях, для цели идентификации говорящего .

В своем анализе эксперт будет использовать различные методы. Минимум процедур - это «критическое прослушивание, анализ формы сигнала и спектральный анализ ». Критическое слушание включает в себя тщательную разбивку как передних, так и фоновых звуков посредством повторяющегося слушания. Анализ формы волны визуализирует звук, чтобы экзаменатор мог увидеть любые возможные отклонения. Спектральный анализ визуализирует частоту звука, чтобы экзаменатор мог выбрать интересующие особенности.

Одним из случаев, в котором звук сыграл большую роль, является дело Трейвона Мартина , где была проанализирована запись звонка в полицию, чтобы определить, исходили ли фоновые крики от Джорджа Циммермана или от Мартина .

Судебно-медицинский голос

Эксперты в области судебной экспертизы голоса анализируют записи, исследуя переданную и сохраненную речь, улучшая ее и расшифровывая для уголовных расследований, судебных процессов и федеральных агентств.

Чтобы использовать аудиозаписи в суде, судебный фонетик должен подтвердить подлинность записи, чтобы обнаружить подделку, улучшить звук и интерпретировать речь. Их первая задача - обеспечить понятность речи в используемой записи. Часто сэмплы имеют плохое качество звука из-за таких факторов окружающей среды, как ветер или движение. В других случаях ухудшение качества звука связано с технологическими проблемами записывающего устройства. Никакая следственная работа по идентификации говорящего не может быть проведена до тех пор, пока запись не будет надлежащего качества. Различные решения проблемы плохой разборчивости принимаются с использованием компьютерных программ, которые позволяют пользователю фильтровать и устранять шум. Компьютерное программное обеспечение также может преобразовывать речь в спектры и формы сигналов, что полезно для судебных фонетиков. Тем не менее, любая работа, проделанная с записью, должна производиться после того, как будет сделана копия оригинальной записи.

Основная часть работы судебного фонетика - идентификация говорящего. Процесс интерпретации может включать в себя сборку временной шкалы, расшифровку диалога и определение неизвестных или неразборчивых звуков в аудиозаписи. В суде эксперт, в конечном счете, служит для объяснения фактов, связанных с аудиодоказательствами, предоставляя объяснение соответствующих акустических и физических принципов для объяснения того, что свидетельствует запись. Отчеты составляются, чтобы включать подробную информацию, если есть часть записи, которая непонятна или неслышима, объяснение того, что происходило (в записи), и описание того, что отсутствует в записи.

Идентификация спикера

Голосовой анализ играет важную роль в идентификации говорящего . Это когда личность говорящего неизвестна, и его необходимо идентифицировать по множеству других голосов или подозреваемых, когда речь идет о расследовании преступления или судебном разбирательстве. Правильная идентификация говорящего и голоса, особенно в уголовных делах, зависит от ряда факторов, таких как знакомство, разоблачение, задержка, тон голоса, маскировка голоса и акценты. Знакомство с говорящим увеличивает шансы правильно определить голос и различить его. Степень воздействия голоса также помогает правильно идентифицировать голос, даже если он незнакомый. Слушатель, который слушает более длинное высказывание или слышит голос чаще, лучше распознает голос, чем тот, кто, возможно, мог услышать только одно слово. Задержка между временем прослушивания голоса и временем идентификации говорящего также снижает вероятность определения правильного говорящего. Тон голоса влияет на способность идентифицировать правый динамик. Если тон не соответствует тону говорящего во время сравнения, будет труднее проанализировать. Маскировка голоса, например, когда говорящий шепчет, также препятствует возможности точно сопоставить и идентифицировать говорящего. В некоторых случаях людям, говорящим на том же языке, что и говорящий, чей голос анализируется, будет легче идентифицировать их из-за акцента и ударения голоса. Идентификация говорящего дополнительно осложняется искажениями из-за технических методов записи и проблемами, связанными с говорящим, такими как эмоциональные состояния или альтернативные мотивы, вызывающие несоответствие между их голосом и голосом записи. Методы идентификации говорящего в судебной медицине включают использование слуховых свидетелей, которые используются для идентификации услышанных голосов, слухового восприятия, применяемого специалистом в отношении надсегментарных сегментов речи человека, и компьютерных подходов.

Смотрите также

использованная литература

  1. ^ Саранги, Сусанта; Сахидулла, штат Мэриленд; Саха, Гоутам (сентябрь 2020 г.). «Оптимизация набора фильтров на основе данных для автоматической проверки говорящего». Цифровая обработка сигналов . 104 . arXiv : 2007.10729 . DOI : 10.1016 / j.dsp.2020.102795 .
  2. ^ Хапнер, Эди; Стемпл, Джозеф (2014). Голосовая терапия: клинические примеры . Множественное издание.
  3. ^ Торан, SiKC; Лал, Б.К. (2010). «Объективный анализ голоса на голосовые полипы после микроларингеальной фонохирургии» . Медицинский журнал Университета Катманду . 8 (2): 185–189. DOI : 10.3126 / kumj.v8i2.3555 . ISSN  1812-2078 . PMID  21209532 .
  4. ^ Stemple, Джозеф C .; Стэнли, Дженнифер; Ли, Линда (1995). «Объективные измерения голосового производства у нормальных субъектов после длительного использования голоса». Журнал голоса . 9 (2): 127–133. DOI : 10.1016 / s0892-1997 (05) 80245-0 . ISSN  0892-1997 . PMID  7620534 .
  5. ^ Геррат, Брюс R .; Хэнсон, Дэвид Дж .; Berke, Gerald S .; Precoda, Кристин (1991-01-01). «Фотоглоттография: клинический синопсис» . Журнал голоса . С. 98–105. DOI : 10.1016 / S0892-1997 (05) 80173-0 . Проверено 16 декабря 2020 .
  6. ^ Чоудхури, Канишка; Саха, Сомнатх; Саха, Ведула Падмини; Пал, Судипта; Чаттерджи, Индранил (23 марта 2013 г.). «До и послеоперационный анализ голоса после медиализационной тиропластики в случаях одностороннего паралича голосовой складки» . Индийский журнал отоларингологии и хирургии головы и шеи . 65 (4): 354–357. DOI : 10.1007 / s12070-013-0649-3 . ISSN  2231-3796 . PMC  3851511 . PMID  24427598 .
  7. ^ Махер, Роберт С. (2018). Принципы судебно-звукового анализа . Современная акустика и обработка сигналов. Чам: Издательство Springer International. С. 1–2. DOI : 10.1007 / 978-3-319-99453-6. ISBN  978-3-319-99452-9 .
  8. ^ Солан, Лоуренс М .; Тиерсма, Питер М. (2004). Кстати о преступности . Издательство Чикагского университета. DOI : 10,7208 / Чикагский / 9780226767871.001.0001 . ISBN 978-0-226-76793-2.
  9. ^ a b c Махер, Роберт С. (2018). Принципы судебно-звукового анализа . Современная акустика и обработка сигналов. Чам: Издательство Springer International. С. 48–49. DOI : 10.1007 / 978-3-319-99453-6. ISBN  978-3-319-99452-9 .

внешние ссылки