Я настраиваю проект с преобразованием речи microsoft в текст. Он работает нормально, и я могу преобразовать то, что я говорю, в текст и отправить его позже другим подписчикам signalR.
Однако теперь мне нужно связать его с распознаванием динамика. Другими словами: я хочу, чтобы мою речь в тексте распознавали только несколько говорящих.
В настоящее время я использую классический TranslationRecognizer, который получает микрофон по умолчанию и переводит на лету.
Затем я использую StartContinuousRecognitionAsync, чтобы начать распознавание.
Есть ли способ получить аудиопоток до того, как он будет отправлен в службу перевода, чтобы проверить, является ли пользователь правильным, а затем, после того, как проверка в порядке, возобновить стандартное выполнение?
Я предполагаю, что это будет лучшая идея, но я открыт для любых идей или изменений архитектуры.
Спасибо за ваш вклад