Начало работы с распознаванием речи и сфинксом

Sphinx кажется единственным реальным вариантом для распознавания речи Java. Документация немногочисленна и требует высокого уровня знаний предметной области. Я использовал их пример стартовой программы, и она работает для одного файла, а не для другого, очень похожего файла. В чем разница? В чем секрет заставить его работать точнее.

Этот файл, https://www.opdsupport.com/downloads/miscellaneous/sample-audio-files/52-welcome-wav/download работает, но этот, https://www.opdsupport.com/downloads/miscellaneous/sample-audio-files/49-longwelcome-wav/download нет.
Я заметил, что нерабочий файл имел другую частоту дискретизации, поэтому я использовал программу для преобразования его в 16000, но все равно не повезло


person Peter Kronenberg    schedule 21.01.2021    source источник
comment
как насчет моно против стерео. См. cmusphinx.github.io/wiki/tutorialsphinx4/   -  person PaulProgrammer    schedule 22.01.2021
comment
Да, я также заметил, что файл, который не работал, имел 2 канала, поэтому я также преобразовал его в 1, и он все еще не работает (я бы прикрепил измененный файл, но, похоже, нет способ сделать это)   -  person Peter Kronenberg    schedule 22.01.2021
comment
@PaulProgrammer Оказывается, ты прав. Метод преобразования, который я использовал, не сработал. Я попытался преобразовать с SOX в частоту дискретизации 16000 и 1 канал, и это устранило проблему. Также успешно удалось преобразовать mp3 в файл wav.   -  person Peter Kronenberg    schedule 22.01.2021


Ответы (1)


Обязательно внимательно изучите файл. Согласно документы, ваш файл должен быть 8 или 16 кГц и только моно. Для этого доступно множество инструментов - я использую audacity, но, вероятно, слишком много для простого преобразования, например это.

person PaulProgrammer    schedule 22.01.2021
comment
Да, я все больше и больше понимаю. Похоже, что Sphinx поддерживает только файлы WAV, поэтому, по сути, все файлы должны быть преобразованы в WAV, верно? Я в основном хочу иметь возможность поддерживать любой аудиофайл. Похоже, у вас есть работающая система со Sphinx? Если у вас есть другой совет, я бы хотел его услышать. Особенно в отношении производительности и того, какие модели использовать. Кажется, есть и другие модели, помимо той, что идет в комплекте, и неясно, какая из них «лучшая». - person Peter Kronenberg; 23.01.2021
comment
Нередко будет конвейер обработки, который начинался бы с набора известных типов файлов, а затем использовал бы такую ​​утилиту, как ffmpeg, для преобразования файлов в wav перед обработкой. Понятия не имею о лучших моделях - мне кажется, что у sphinx есть несколько достаточно хороших моделей, но он также побуждает вас создавать свои собственные из ваших вариантов использования. - person PaulProgrammer; 24.01.2021