Как алгоритмы распознавания речи распознают омофоны?

Я обдумывал этот вопрос ранее. Какие подсказки используют современные алгоритмы (в частности, те, которые преобразуют голос в текст), чтобы определить, какой омофон был произнесен (например, «тоже» или «два»?)

Используют ли они контекстуальные подсказки? Структура предложения? Возможно, есть небольшие различия в том, как обычно произносится каждое слово (например, я обычно держу звук о дольше в two, чем в to). Сочетание первых двух кажется наиболее правдоподобным.


person Doppelganger    schedule 04.02.2013    source источник


Ответы (1)


Используют ли они контекстуальные подсказки?

Да, системы ASR используют кроссвордный контекст. Например, если предыдущее слово «идет», следующее слово, скорее всего, будет «до», а не «два». Системы ASR учитывают вероятности и выбирают наиболее вероятный вариант декодирования.

Структура предложения?

Да, системы ASR также используют более продвинутые языковые модели для прогнозирования вероятных слов с учетом контекста.

Возможно, есть небольшие различия в том, как обычно произносится каждое слово (например, я обычно держу звук о дольше в слове два, чем в слове то).

Это тоже. На самом деле «тоже» и «то» произносятся совершенно по-разному. «to» часто сокращается до shwa.

Если вас интересуют алгоритмы распознавания речи, возможно, имеет смысл прочитать книгу ASR или пройти онлайн-курс. Подробнее см.

https://sourceforge.net/p/cmusphinx/discussion/speech-recognition/thread/3ea89abf/

person Nikolay Shmyrev    schedule 05.02.2013
comment
Не могли бы вы помочь мне с этим stackoverflow.com/questions/26134036/how -обнаружить-омофон - person Akashdeep Saluja; 01.10.2014
comment
Какую помощь вы ожидаете? - person Nikolay Shmyrev; 01.10.2014