В настоящее время я записываю звук с веб-страницы на своем компьютере Mac OS и запускаю его через облачный речевой API для создания расшифровки. Однако результаты не так точны, и в них есть фрагменты пропущенных слов.
Есть ли какие-нибудь шаги, которые помогут мне получить более точные результаты?
Вот шаги, которые я предпринимаю для преобразования аудио в текст:
- Используйте Soundflower, чтобы направить аудиовыход с моей звуковой карты на микрофон.
- Воспроизвести аудио с веб-сайта
- Используйте проигрыватель quickTime для записи звука, который сохраняется в виде файла .m4a.
- Используйте инструмент командной строки ffmpeg, чтобы преобразовать файл .m4a в .flac, а также объединить 2 аудиоканала (стерео) в 1 аудиоканал (моно).
- Загрузите файл .flac в Google Cloud Storage. Файл имеет частоту дискретизации 44100 Гц и 24 бита на выборку.
- Используйте api longRunningRecognize через клиентскую библиотеку node.js, указав файл в облачном хранилище Google.