Повышение точности Google Cloud Speech API

В настоящее время я записываю звук с веб-страницы на своем компьютере Mac OS и запускаю его через облачный речевой API для создания расшифровки. Однако результаты не так точны, и в них есть фрагменты пропущенных слов.

Есть ли какие-нибудь шаги, которые помогут мне получить более точные результаты?

Вот шаги, которые я предпринимаю для преобразования аудио в текст:

  1. Используйте Soundflower, чтобы направить аудиовыход с моей звуковой карты на микрофон.
  2. Воспроизвести аудио с веб-сайта
  3. Используйте проигрыватель quickTime для записи звука, который сохраняется в виде файла .m4a.
  4. Используйте инструмент командной строки ffmpeg, чтобы преобразовать файл .m4a в .flac, а также объединить 2 аудиоканала (стерео) в 1 аудиоканал (моно).
  5. Загрузите файл .flac в Google Cloud Storage. Файл имеет частоту дискретизации 44100 Гц и 24 бита на выборку.
  6. Используйте api longRunningRecognize через клиентскую библиотеку node.js, указав файл в облачном хранилище Google.

person Shaikat Haque    schedule 16.08.2018    source источник


Ответы (1)


Что касается API преобразования речи в текст, я предлагаю вам убедиться, что вы следуете Рекомендации, например, избегайте чрезмерного фонового шума и одновременного разговора нескольких человек, поскольку эти аспекты могут повлиять на распознавание службы.

Думаю, у вас хорошая частота дискретизации и несложные кодеки; Однако имейте в виду, что предварительная обработка может повлиять на качество звука. В этих случаях рекомендуется избегать повторной выборки, тем не менее, вы можете попробовать использовать разные аудиоформаты, чтобы проверить, какие из них дают наиболее точные результаты.

Кроме того, вы можете использовать languageCode и подсказки фраз Свойства API, которые обычно используются для повышения точности распознавания.

person Armin_SC    schedule 17.08.2018