Я обдумывал этот вопрос ранее. Какие подсказки используют современные алгоритмы (в частности, те, которые преобразуют голос в текст), чтобы определить, какой омофон был произнесен (например, «тоже» или «два»?)
Используют ли они контекстуальные подсказки? Структура предложения? Возможно, есть небольшие различия в том, как обычно произносится каждое слово (например, я обычно держу звук о дольше в two, чем в to). Сочетание первых двух кажется наиболее правдоподобным.