основная частота женского голоса

Согласно тому, что я прочитал в Интернете, нормальный диапазон основной частоты женского голоса составляет от 165 до 255 Гц. Я использую Praat, а также библиотеку Python под названием Parselmouth, чтобы получить значения основной частоты женского голоса в аудиофайле (.wav). однако я получил некоторые значения, превышающие 255 Гц (например: 400 + Гц, 500 Гц). Нормально ли получать такие большие значения?


person sttc1998    schedule 15.12.2018    source источник


Ответы (1)


Это возможно, но маловероятно, если вы пытаетесь захватить основную частоту (F0) говорящего голоса. Кажется вероятным, что вместо этого вы улавливаете более легко резонирующий обертон (например, F1 или F2).

Мои эксперименты с Praat создают у меня впечатление, что при хороших параметрах он надежно извлекает F0.

Что вам нужно сделать, так это проверить это, сравнив кривую шага со спектрограммой. Вот пример примерки, сделанной Praat (женщина-спикер):

Спектрограмма и F0

Вы можете видеть на изображении, что

  • Наиболее заметная частота кажется F2.
  • Около 200 Гц, вероятно, будет F0, поскольку ниже этого уровня есть только шум (по сравнению с до / после сегмента).
  • Praat рассчитал хорошую оценку F0 для сегментов голосовой речи.

Если после визуального осмотра кажется, что вы получаете неверные результаты, вы можете попробовать настроить параметры. Длина окна сильно влияет на разрешение по частоте.

Если вы не можете зафиксировать такие низкие частоты, вам следует попробовать увеличить длину окна - интуиция подсказывает, что это дает алгоритму больше шансов найти медленно изменяющиеся периодические особенности в данных.

person Sami Hult    schedule 15.12.2018
comment
Спасибо за ваш ответ. Я разобрался в проблеме. Похоже, что что-то не так с моим параметром порога молчания. Я использовал -0,45 дБ, но когда я изменил его на 0,1 дБ, все значения, кажется, попадают в диапазон. Но я сомневался, что это лучшее решение. Какой нормальный порог тишины используется при анализе звука? - person sttc1998; 16.12.2018
comment
@ sttc1998 Я сомневаюсь, что существует такое понятие, как нормальный порог тишины. Подходящее значение зависит от вашей цели и от того, в какой области вы выполняете шумоподавление (время, частота). Если цель состоит в том, чтобы найти основную частоту голосового сегмента, я бы вообще не стал использовать шумоподавитель: автокорреляция кепстра будет в некоторой степени невосприимчивой к разумному шуму. - person Sami Hult; 16.12.2018