Как алгоритмы распознавания речи распознают омофоны?

Я обдумывал этот вопрос ранее. Какие подсказки используют современные алгоритмы (в частности, те, которые преобразуют голос в текст), чтобы определить, какой омофон был произнесен (например, «тоже» или «два»?)

Используют ли они контекстуальные подсказки? Структура предложения? Возможно, есть небольшие различия в том, как обычно произносится каждое слово (например, я обычно держу звук о дольше в two, чем в to). Сочетание первых двух кажется наиболее правдоподобным.

voice-recognition speech-recognition

Doppelganger 04.02.2013 источник

Ответы (1)

arrow_upward
7
arrow_downward

Используют ли они контекстуальные подсказки?

Да, системы ASR используют кроссвордный контекст. Например, если предыдущее слово «идет», следующее слово, скорее всего, будет «до», а не «два». Системы ASR учитывают вероятности и выбирают наиболее вероятный вариант декодирования.

Структура предложения?

Да, системы ASR также используют более продвинутые языковые модели для прогнозирования вероятных слов с учетом контекста.

Возможно, есть небольшие различия в том, как обычно произносится каждое слово (например, я обычно держу звук о дольше в слове два, чем в слове то).

Это тоже. На самом деле «тоже» и «то» произносятся совершенно по-разному. «to» часто сокращается до shwa.

Если вас интересуют алгоритмы распознавания речи, возможно, имеет смысл прочитать книгу ASR или пройти онлайн-курс. Подробнее см.

https://sourceforge.net/p/cmusphinx/discussion/speech-recognition/thread/3ea89abf/

Nikolay Shmyrev 05.02.2013

comment

Не могли бы вы помочь мне с этим stackoverflow.com/questions/26134036/how -обнаружить-омофон - Akashdeep Saluja; 01.10.2014

comment

Какую помощь вы ожидаете? - Nikolay Shmyrev; 01.10.2014

Как алгоритмы распознавания речи распознают омофоны?

Ответы (1)

Похожие вопросы