Как улучшить производительность распознавания речи Google с помощью предварительной обработки

Когда я пробую распознавать речь Google, он показывает низкую производительность на традиционном китайском аудиофайле с фоновым шумом. Могу ли я улучшить качество распознавания речи после некоторой предварительной обработки (например, улучшения речи)? Работает ли он на сервисе Google Speech?


person Wayne Chen    schedule 22.02.2018    source источник


Ответы (2)


Я бы посоветовал вам просмотреть эту страницу в документации по Google Cloud Speech с указанием лучших методы предоставления речевых данных службе, включая рекомендации по предварительной обработке.

person Lefteris S    schedule 01.03.2018

Сохраняйте запись как можно ближе к исходному речевому сигналу. Без искажений, без клиппирования, без шума, без искусственной предварительной обработки, такой как подавление шума и автоматическая регулировка усиления. Я думаю, что такая предварительная обработка может повредить полезную информацию в речевых сигналах.

Я скопировал ключевые моменты из Google и вставил их, как показано ниже.

  1. Расположите микрофон как можно ближе к говорящему, особенно при наличии фонового шума.
  2. Избегайте обрезки звука.
  3. Не используйте автоматическую регулировку усиления (AGC).
  4. Вся обработка шумоподавления должна быть отключена.
  5. Послушайте образец аудио. Он должен звучать четко, без искажений или неожиданных шумов.
person calmly    schedule 06.05.2019