Посмотрев на некоторые сервисы / инструменты, я пришел к выводу. Большинство инструментов преобразования текста в речь имеют слишком сложные, роботизированные - другими словами, голоса плохого качества.
И да, вдобавок ко всему, похоже, что они поставляются с жестко закодированными голосовыми шаблонами, что сокращает разнообразие / настройку. Некоторые инструменты позволяют установить скорость чтения и высоту тона », но этого недостаточно.
Мое предположение о проблеме, стоящей за эмоциональным аспектом - сложно судить об эмоциях по простому тексту, тем более, если это всего лишь одно или два предложения. К тому же старый добрый ПК - это машина - у машин нет эмоций, но это другая история.
Больше всего меня беспокоит качество. Например, есть инструменты, которые срезают верхнюю часть слов, что приводит к появлению этих причудливых голосов. Похоже, возникла проблема с построением предложения или что-то в этом роде. И да, пока люди работают над такими инструментами, мне интересно, что мешает им еще немного поработать над их улучшением ... срезать верхушку, это немалое дело! Кроме того, нужно иметь в виду, что хорошее, качественное программное обеспечение для преобразования текста в речь стоит, ну ... МНОГО! В результате получился довольно прибыльный продукт.
Ох, под беглостью я скрываю вопросы, восклицания и так далее. (Возможно, это не относится к свободному владению языком, но я не родной английский, пожалуйста, извините меня, если это так.)
Список инструментов, которые я изучил:
Впечатляет, но есть место для улучшений (++)
- Локендо: не хватает разнообразия голоса, есть небольшие проблемы с апексом / беглостью (зависит от предложения) много кашля и оправданий в примерах!
- Nuance Vocalizer: хотя по-прежнему не хватает разнообразия, некоторые из предоставленных голосов достойны.
С таким же успехом можно сотрудничать, чтобы получить больше ресурсов, чем работать над разными, но почти одинаковыми продуктами (-)
- eSpeak: один из лучших роботов, отсюда и логотип программы (?!) sup>
- Natural Reader (тупой автовоспроизведение !!): ну, в нем есть некоторая беглость, но все же это чувство техничности срабатывает.
- iSpeech: посмейтесь, когда настраиваете голос на японский с английским текстом. Готов поспорить, японские парни не очень этому рады.
- Cepstral + Enhanced Voices ... плюс улучшенные голоса дают старый добрый дерьмовый результат, за исключением ~ 5 других голоса, ничего не было улучшено.
- AT&T: приличная беглость, но проблемы с окончанием предложений и слишком много робо!
- LumenVox TTS: похоже, исходит из фона с большим количеством речевых инструментов, но все же приводит к роботизированным голосам.
- И еще кое-что. ...
Если я пропустил что-то стоящее, поделитесь. Может быть бесплатным, коммерческим, сверхдорогим ... Мне интересно, если это работает!
И вопрос (-s) ..
- Как вы думаете, что является основными причинами качества, беглости и разнообразия этих голосов? Поскольку эмоциональный аспект сложно оценить, я не возражаю, если вы пропустите его, но если у вас есть пару идей, я бы не возражал, если бы вы поделились своими мыслями
- Как текст преобразуется в речь? Например, что какие алгоритмы используются за этими инструментами? Может быть, вам пригодится пара свежих теорий.
- Действительно ли это разные движки / драйверы или просто разные модели голоса для одного и того же драйвера / движка?
- Это только у меня, или качество между одним из first инструментов Text2Speech не удалось Не сильно (или совсем) изменилось с годами? И должен признать, что этот старый инструмент Apple дает лучшие результаты, чем некоторые инструменты 2000+, по крайней мере, при сравнении видео с тем, что я заглянул.)