Всю прошлую неделю я потратил на поиск по MFCC и связанным с ним вопросам. Теперь я могу получить функции MFCC из файла .wav в двумерном векторе, скажем, coff[56][12]. 12 — это количество коэффициентов, которые я хочу извлечь, а 56 — это количество кадров. Согласно нескольким документам, которые я читал, мы можем использовать более 12 коэффициентов для распознавания речи (в частности, я хочу распознавать слова «один», «два»... до «десяти»). Но теперь я получаю 56 из 12 фреймов, так какой из 56 фреймов я должен использовать?
Если я что-то не так, пожалуйста, помогите мне!!!