Я создаю CNN для распознавания речи с помощью Librosa. Я извлек MFCC для каждого аудиофайла и предварительно обработал свои аудиоданные. Аудиоданные имеют размеры (93894, 8000), а MFCC имеют размеры (93894, 26, 16). В таком виде я не могу использовать их в одних и тех же моделях из-за их разницы в размерах. Я мог бы создать отдельные модели, некоторые из которых получают аудиоданные одномерные, а некоторые - двумерные MFCC, и посмотреть, какая из них работает лучше всего. Но я надеялся объединить их всех в одну модель. Есть ли способ сделать это? Имеет ли смысл выравнивание MFCC?
Распознавание речи с помощью CNN и Librosa: Могу ли я комбинировать MFCC и аудиоданные?
comment
Посмотрите на архитектуру с несколькими головками. Комбинирование мел-спектрограммы и формы волны исследовалось как минимум
- person Jon Nordby   schedule 25.08.2020
comment
Кстати, типичный 2D CNN не будет так хорошо работать на MFCC. Поскольку MFCC разрушает частотно-временную привязку, информация о частоте больше не находится в той же области. Вероятно, вы захотите использовать спектрограммы log mel с CNN или MFCC с LSTM / RNN.
- person Jon Nordby   schedule 25.08.2020
Ответы (1)
Без ансамблевой архитектуры невозможно передать данные разной размерности в одну и ту же нейронную сеть. Я создал разные сети для обработки MFCC и необработанных аудиоданных, и, чего бы это ни стоило, модели, работающие только на MFCC, были более эффективными и точными.
person
mojones101
schedule
08.01.2021