Bing Speech to Text API возвращает очень неправильный текст

Я пробую «Bing Speech To Text API» в аудиофайлах, которые содержат реальные разговоры между человеком, который отвечает клиентам в call-центре, и клиентом, который звонит в колл-центр, чтобы разрешить свои сомнения. Таким образом, в этих аудиосистемах разговаривают два человека, а иногда бывает длительное молчание, когда клиент ожидает ответа от службы поддержки. Эти аудиозаписи длятся от 5 до 10 минут.

Я сомневаюсь:

Как лучше всего переводить подобные аудиозаписи в текст с помощью Microsoft Cognitive Services?

Какие API мне нужно использовать, кроме Bing Speech To Text?

Нужно ли мне обрезать или преобразовывать аудио перед отправкой их в Bing Speech To Text?

Я спрашиваю об этом, потому что API-интерфейс Bing «Речь в текст» возвращает текст, очень, очень, очень сильно отличающийся от аудиоконтента. Невозможно использовать или понять. Но, конечно, я думаю, что делаю какую-то ошибку.

Не могли бы вы объяснить мне лучшую стратегию работы с такими аудиофайлами?

Буду очень рад любой помощи. Best Regads,

azure-cognitive-services speech-to-text

Marcos Tito de Pardo Marques 30.12.2017 источник

comment

не могли бы вы поделиться своим кодом? - Mehdi 31.12.2017

comment

Скорее всего, формат входных данных неправильный, например, вы отправляете сжатый звук, а вам нужно отправить несжатый файл pcm. Для такой задачи лучше попробовать специализированные API, такие как Kaldi. - Nikolay Shmyrev 31.12.2017

Ответы (1)

arrow_upward
0
arrow_downward

Я столкнулся с этой проблемой и с разговорами. Убедитесь, что режим транскрипции установлен на «разговор», а не на «интерактивный».

Rob Squizzero 03.02.2018

Bing Speech to Text API возвращает очень неправильный текст

Ответы (1)

Похожие вопросы