Распознавание речи с помощью CNN и Librosa: Могу ли я комбинировать MFCC и аудиоданные?

Я создаю CNN для распознавания речи с помощью Librosa. Я извлек MFCC для каждого аудиофайла и предварительно обработал свои аудиоданные. Аудиоданные имеют размеры (93894, 8000), а MFCC имеют размеры (93894, 26, 16). В таком виде я не могу использовать их в одних и тех же моделях из-за их разницы в размерах. Я мог бы создать отдельные модели, некоторые из которых получают аудиоданные одномерные, а некоторые - двумерные MFCC, и посмотреть, какая из них работает лучше всего. Но я надеялся объединить их всех в одну модель. Есть ли способ сделать это? Имеет ли смысл выравнивание MFCC?


person mojones101    schedule 25.08.2020    source источник
comment
Посмотрите на архитектуру с несколькими головками. Комбинирование мел-спектрограммы и формы волны исследовалось как минимум   -  person Jon Nordby    schedule 25.08.2020
comment
Кстати, типичный 2D CNN не будет так хорошо работать на MFCC. Поскольку MFCC разрушает частотно-временную привязку, информация о частоте больше не находится в той же области. Вероятно, вы захотите использовать спектрограммы log mel с CNN или MFCC с LSTM / RNN.   -  person Jon Nordby    schedule 25.08.2020


Ответы (1)


Без ансамблевой архитектуры невозможно передать данные разной размерности в одну и ту же нейронную сеть. Я создал разные сети для обработки MFCC и необработанных аудиоданных, и, чего бы это ни стоило, модели, работающие только на MFCC, были более эффективными и точными.

person mojones101    schedule 08.01.2021