Я ищу алгоритм, чтобы определить, соответствует ли аудиовход в реальном времени одной из 144 заданных (и удобно различных) пар фонем.
Желательно самый низкий уровень, который выполняет эту работу.
Я занимаюсь разработкой радикального / экспериментального программного обеспечения для обучения музыке для iPhone / iPad.
Моя музыкальная система состоит из 12 согласных и 12 гласных фонем, продемонстрированных здесь. Это дает 144 возможных пары фонем. Ученик должен спеть правильную пару фонем «лаа дуу пчела» и т. Д. В ответ на визуальный стимул.
Я провел много исследований по этому поводу, похоже, что лучше всего использовать одну из оболочек iOS Sphinx (Приложение для iPhone› Добавить распознавание голоса? - лучший источник информации, который я нашел). Однако я не понимаю, как бы я адаптировал такой пакет, может ли кто-нибудь, имеющий опыт использования одной из этих технологий, дать базовое изложение шагов, которые потребуются?
Потребуется ли обучение пользователя? Я бы не подумал, что это такая элементарная задача по сравнению с полными языковыми моделями из тысяч слов и гораздо большей и более тонкой фонемной базой. Однако было бы приемлемо (не идеально), чтобы пользователь обучил 12 пар фонем: {согласный1 + гласный1, согласный2 + гласный2, ..., согласный12 + гласный12}. Полные 144 были бы слишком обременительными.
Есть подход попроще? Мне кажется, что использование полнофункционального распознавателя слитной речи - это использование кувалды, чтобы сломать орех. Было бы намного элегантнее использовать минимум технологий, которые решали бы проблему.
Так что на самом деле я ищу любое программное обеспечение с открытым исходным кодом, которое распознает фонемы.
PS Мне нужно решение, которое работает практически в режиме реального времени. поэтому, даже когда они поют ноту, сначала он мигает, чтобы показать, что он уловил спетую пару фонем, а затем он светится, чтобы показать, поют ли они с правильной высотой ноты