Я пробую «Bing Speech To Text API» в аудиофайлах, которые содержат реальные разговоры между человеком, который отвечает клиентам в call-центре, и клиентом, который звонит в колл-центр, чтобы разрешить свои сомнения. Таким образом, в этих аудиосистемах разговаривают два человека, а иногда бывает длительное молчание, когда клиент ожидает ответа от службы поддержки. Эти аудиозаписи длятся от 5 до 10 минут.
Я сомневаюсь:
Как лучше всего переводить подобные аудиозаписи в текст с помощью Microsoft Cognitive Services?
Какие API мне нужно использовать, кроме Bing Speech To Text?
Нужно ли мне обрезать или преобразовывать аудио перед отправкой их в Bing Speech To Text?
Я спрашиваю об этом, потому что API-интерфейс Bing «Речь в текст» возвращает текст, очень, очень, очень сильно отличающийся от аудиоконтента. Невозможно использовать или понять. Но, конечно, я думаю, что делаю какую-то ошибку.
Не могли бы вы объяснить мне лучшую стратегию работы с такими аудиофайлами?
Буду очень рад любой помощи. Best Regads,