Я извлекаю MFCC из аудиофайла с помощью функции Librosa (librosa.feature.mfcc) и правильно возвращаю массив numpy с формой, которую я ожидал: 13 значений MFCC для всей длины аудиофайла, который составляет 1292 окна (в 30 секунд).
Чего не хватает, так это информации о времени для каждого окна: например, я хочу знать, как выглядит MFCC во время 5000 мс, затем 5200 мс и т. д. Нужно ли мне вручную рассчитывать время? Есть ли способ автоматически получать точное время для каждого окна?