Уменьшить выход MFCC

Я пытаюсь проанализировать звук песни, используя библиотеку python, вывод представляет собой массив numpy, массив очень большой по размеру, поскольку MFCC рассчитывается для каждого кадра звука. Когда я записываю этот вывод в файл, каждая песня имеет вывод около 3-4 МБ. Есть ли способ сократить N кадров информации в один ряд функций?

нажмите здесь]([![Выход MFCC)


person nebula186    schedule 15.11.2018    source источник


Ответы (1)


Обычной практикой является группировка последовательных кадров в окна последовательности, вычисление агрегированной статистики для каждого окна текстуры, а затем их повторное суммирование с использованием агрегированной статистики.

Статистика рассчитывается для каждого входного объекта (диапазон MFCC в вашем случае). Примеры статистических функций: среднее значение, стандартное отклонение, минимум, максимум. Размер текстуры может составлять от 1 до 60 секунд.

См. Низкоуровневые функции и тембр, Хуан Пабло Белло, MPATE-GE 2623 Music Information. Поиск

person Jon Nordby    schedule 02.12.2018