Пример больших / длинных аудиофайлов с преобразованием речи в текст в Azure Cognitive Services

Хотелось бы расшифровать пару длинных (голландских) аудиофайлов. Это интервью, продолжительность каждого файла составляет около 60-120 минут. У меня всего 8 файлов, которые мне нужно сделать вручную, поэтому я не обязательно являюсь частью какого-то автоматизированного программного обеспечения. Получил несколько кредитов Azure, поэтому решил пойти с Azure Cognitive Services Speech to Text. Есть ли где-нибудь образец для этого?

Пробовал этот образец: https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text-sample. Работает отлично. Но останавливается сразу после небольшой паузы в звуке.

Видел похожий вопрос здесь: Большие аудиофайлы с преобразованием речи в текст [Microsoft Speech API]. Но плакат не рассказал, как он это решил.

Может кто-нибудь помочь?


person Gerben van Loon    schedule 16.01.2021    source источник


Ответы (1)


Для более длинных аудиофайлов мы рекомендуем API пакетной транскрипции. Хорошее объяснение здесь: https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/batch-transcription, и здесь есть образцы для C # и Python: https://github.com/Azure-Samples/cognitive-services-speech-sdk/tree/master/samples/batch.

person Ralf Beckers    schedule 16.01.2021
comment
Спасибо, Ральф, это прекрасно работает! - person Gerben van Loon; 29.01.2021