Повышение точности Google Cloud Speech API

В настоящее время я записываю звук с веб-страницы на своем компьютере Mac OS и запускаю его через облачный речевой API для создания расшифровки. Однако результаты не так точны, и в них есть фрагменты пропущенных слов.

Есть ли какие-нибудь шаги, которые помогут мне получить более точные результаты?

Вот шаги, которые я предпринимаю для преобразования аудио в текст:

Используйте Soundflower, чтобы направить аудиовыход с моей звуковой карты на микрофон.
Воспроизвести аудио с веб-сайта
Используйте проигрыватель quickTime для записи звука, который сохраняется в виде файла .m4a.
Используйте инструмент командной строки ffmpeg, чтобы преобразовать файл .m4a в .flac, а также объединить 2 аудиоканала (стерео) в 1 аудиоканал (моно).
Загрузите файл .flac в Google Cloud Storage. Файл имеет частоту дискретизации 44100 Гц и 24 бита на выборку.
Используйте api longRunningRecognize через клиентскую библиотеку node.js, указав файл в облачном хранилище Google.

Shaikat Haque 16.08.2018 источник

Ответы (1)

arrow_upward
5
arrow_downward

Что касается API преобразования речи в текст, я предлагаю вам убедиться, что вы следуете Рекомендации, например, избегайте чрезмерного фонового шума и одновременного разговора нескольких человек, поскольку эти аспекты могут повлиять на распознавание службы.

Думаю, у вас хорошая частота дискретизации и несложные кодеки; Однако имейте в виду, что предварительная обработка может повлиять на качество звука. В этих случаях рекомендуется избегать повторной выборки, тем не менее, вы можете попробовать использовать разные аудиоформаты, чтобы проверить, какие из них дают наиболее точные результаты.

Кроме того, вы можете использовать languageCode и подсказки фраз Свойства API, которые обычно используются для повышения точности распознавания.

Armin_SC 17.08.2018

Повышение точности Google Cloud Speech API

Ответы (1)

Похожие вопросы