Есть ли способ связать речь MS с текстом с распознаванием говорящего MS?

Я настраиваю проект с преобразованием речи microsoft в текст. Он работает нормально, и я могу преобразовать то, что я говорю, в текст и отправить его позже другим подписчикам signalR.

Однако теперь мне нужно связать его с распознаванием динамика. Другими словами: я хочу, чтобы мою речь в тексте распознавали только несколько говорящих.

В настоящее время я использую классический TranslationRecognizer, который получает микрофон по умолчанию и переводит на лету.

Затем я использую StartContinuousRecognitionAsync, чтобы начать распознавание.

Есть ли способ получить аудиопоток до того, как он будет отправлен в службу перевода, чтобы проверить, является ли пользователь правильным, а затем, после того, как проверка в порядке, возобновить стандартное выполнение?

Я предполагаю, что это будет лучшая идея, но я открыт для любых идей или изменений архитектуры.

Спасибо за ваш вклад


person Triterium    schedule 14.10.2019    source источник


Ответы (1)


Спасибо, что обратились к нам! В настоящее время ведение дневника говорящего (то есть говорящего) доступно только в нашем пакетная транскрипция, но пока не для распознавания речи в реальном времени. Однако, если вы можете самостоятельно разделить динамики, например на основе аудиоканала вы можете передавать аудиопоток для конкретного динамика через интерфейс AudioInputStream к Speech SDK для распознавания.

Спасибо.

person Zhou    schedule 23.10.2019