Bing Speech to Text API возвращает очень неправильный текст

Я пробую «Bing Speech To Text API» в аудиофайлах, которые содержат реальные разговоры между человеком, который отвечает клиентам в call-центре, и клиентом, который звонит в колл-центр, чтобы разрешить свои сомнения. Таким образом, в этих аудиосистемах разговаривают два человека, а иногда бывает длительное молчание, когда клиент ожидает ответа от службы поддержки. Эти аудиозаписи длятся от 5 до 10 минут.

Я сомневаюсь:

Как лучше всего переводить подобные аудиозаписи в текст с помощью Microsoft Cognitive Services?

Какие API мне нужно использовать, кроме Bing Speech To Text?

Нужно ли мне обрезать или преобразовывать аудио перед отправкой их в Bing Speech To Text?

Я спрашиваю об этом, потому что API-интерфейс Bing «Речь в текст» возвращает текст, очень, очень, очень сильно отличающийся от аудиоконтента. Невозможно использовать или понять. Но, конечно, я думаю, что делаю какую-то ошибку.

Не могли бы вы объяснить мне лучшую стратегию работы с такими аудиофайлами?

Буду очень рад любой помощи. Best Regads,


person Marcos Tito de Pardo Marques    schedule 30.12.2017    source источник
comment
не могли бы вы поделиться своим кодом?   -  person Mehdi    schedule 31.12.2017
comment
Скорее всего, формат входных данных неправильный, например, вы отправляете сжатый звук, а вам нужно отправить несжатый файл pcm. Для такой задачи лучше попробовать специализированные API, такие как Kaldi.   -  person Nikolay Shmyrev    schedule 31.12.2017


Ответы (1)


Я столкнулся с этой проблемой и с разговорами. Убедитесь, что режим транскрипции установлен на «разговор», а не на «интерактивный».

person Rob Squizzero    schedule 03.02.2018