Распознавание речи с помощью CNN и Librosa: Могу ли я комбинировать MFCC и аудиоданные?

Я создаю CNN для распознавания речи с помощью Librosa. Я извлек MFCC для каждого аудиофайла и предварительно обработал свои аудиоданные. Аудиоданные имеют размеры (93894, 8000), а MFCC имеют размеры (93894, 26, 16). В таком виде я не могу использовать их в одних и тех же моделях из-за их разницы в размерах. Я мог бы создать отдельные модели, некоторые из которых получают аудиоданные одномерные, а некоторые - двумерные MFCC, и посмотреть, какая из них работает лучше всего. Но я надеялся объединить их всех в одну модель. Есть ли способ сделать это? Имеет ли смысл выравнивание MFCC?

mojones101 25.08.2020 источник

comment

Посмотрите на архитектуру с несколькими головками. Комбинирование мел-спектрограммы и формы волны исследовалось как минимум - Jon Nordby 25.08.2020

comment

Кстати, типичный 2D CNN не будет так хорошо работать на MFCC. Поскольку MFCC разрушает частотно-временную привязку, информация о частоте больше не находится в той же области. Вероятно, вы захотите использовать спектрограммы log mel с CNN или MFCC с LSTM / RNN. - Jon Nordby 25.08.2020

Ответы (1)

arrow_upward
0
arrow_downward

Без ансамблевой архитектуры невозможно передать данные разной размерности в одну и ту же нейронную сеть. Я создал разные сети для обработки MFCC и необработанных аудиоданных, и, чего бы это ни стоило, модели, работающие только на MFCC, были более эффективными и точными.

mojones101 08.01.2021

Распознавание речи с помощью CNN и Librosa: Могу ли я комбинировать MFCC и аудиоданные?

Ответы (1)

Похожие вопросы