Высококачественный, эмоциональный, плавный и гибкий преобразователь текста в речь?

Посмотрев на некоторые сервисы / инструменты, я пришел к выводу. Большинство инструментов преобразования текста в речь имеют слишком сложные, роботизированные - другими словами, голоса плохого качества.

И да, вдобавок ко всему, похоже, что они поставляются с жестко закодированными голосовыми шаблонами, что сокращает разнообразие / настройку. Некоторые инструменты позволяют установить скорость чтения и высоту тона », но этого недостаточно.

Мое предположение о проблеме, стоящей за эмоциональным аспектом - сложно судить об эмоциях по простому тексту, тем более, если это всего лишь одно или два предложения. К тому же старый добрый ПК - это машина - у машин нет эмоций, но это другая история.

Больше всего меня беспокоит качество. Например, есть инструменты, которые срезают верхнюю часть слов, что приводит к появлению этих причудливых голосов. Похоже, возникла проблема с построением предложения или что-то в этом роде. И да, пока люди работают над такими инструментами, мне интересно, что мешает им еще немного поработать над их улучшением ... срезать верхушку, это немалое дело! Кроме того, нужно иметь в виду, что хорошее, качественное программное обеспечение для преобразования текста в речь стоит, ну ... МНОГО! В результате получился довольно прибыльный продукт.

Ох, под беглостью я скрываю вопросы, восклицания и так далее. (Возможно, это не относится к свободному владению языком, но я не родной английский, пожалуйста, извините меня, если это так.)

Список инструментов, которые я изучил:

Впечатляет, но есть место для улучшений (++)

^{- Локендо: не хватает разнообразия голоса, есть небольшие проблемы с апексом / беглостью (зависит от предложения) много кашля и оправданий в примерах!}
^{- Nuance Vocalizer: хотя по-прежнему не хватает разнообразия, некоторые из предоставленных голосов достойны.}

С таким же успехом можно сотрудничать, чтобы получить больше ресурсов, чем работать над разными, но почти одинаковыми продуктами (-)

^{- eSpeak: один из лучших роботов, отсюда и логотип программы (?!)
^{- Natural Reader (тупой автовоспроизведение !!): ну, в нем есть некоторая беглость, но все же это чувство техничности срабатывает.}
^{- iSpeech: посмейтесь, когда настраиваете голос на японский с английским текстом. Готов поспорить, японские парни не очень этому рады.}
^{- Cepstral + Enhanced Voices ... плюс улучшенные голоса дают старый добрый дерьмовый результат, за исключением ~ 5 других голоса, ничего не было улучшено.}
^{- AT&T: приличная беглость, но проблемы с окончанием предложений и слишком много робо!}
^{- LumenVox TTS: похоже, исходит из фона с большим количеством речевых инструментов, но все же приводит к роботизированным голосам.}
^{- И еще кое-что. ...}}

Если я пропустил что-то стоящее, поделитесь. Может быть бесплатным, коммерческим, сверхдорогим ... Мне интересно, если это работает!

И вопрос (-s) ..

Как вы думаете, что является основными причинами качества, беглости и разнообразия этих голосов? Поскольку эмоциональный аспект сложно оценить, я не возражаю, если вы пропустите его, но если у вас есть пару идей, я бы не возражал, если бы вы поделились своими мыслями
Как текст преобразуется в речь? Например, что какие алгоритмы используются за этими инструментами? Может быть, вам пригодится пара свежих теорий.
Действительно ли это разные движки / драйверы или просто разные модели голоса для одного и того же драйвера / движка?
Это только у меня, или качество между одним из first инструментов Text2Speech не удалось Не сильно (или совсем) изменилось с годами? И должен признать, что этот старый инструмент Apple дает лучшие результаты, чем некоторые инструменты 2000+, по крайней мере, при сравнении видео с тем, что я заглянул.)

tomsseisums 19.06.2011 источник

comment

На мой взгляд, пункты 2 и 3 выше создают пару разумных вопросов. Остальное, кажется, требует обсуждения, которое немного выходит за рамки форума вопросов и ответов. - Jim Lewis 19.06.2011

comment

Ха, может быть, кто-то захочет ответить на некоторые из этих вопросов в этом посте, но да, я начал новую тему для вопрос №2. - tomsseisums 19.06.2011

comment

Что вы имеете в виду под словом «вершина»? Я читал кое-что о синтезе и понимании речи, но я не знаком с этим термином в этом контексте. Я тоже выполнил поиск в Google. Может быть, вставить определение? - Spike0xff 14.03.2014

Ответы (3)

arrow_upward
3
arrow_downward

Я не знаю, ищете ли вы открытое решение, но если у вас Mac, вам стоит попробовать расширенная разметка речи OS X и" Repeat After Me "инструмент создания фраз. Это действительно мощно. Голос Alex, встроенный в Mac OS X 10.5 и более поздних версий, является более продвинутым, чем другие голоса.

На Mac выделите следующий текст, щелкните, удерживая клавишу Control, и выберите «Речь»> «Начать говорить»:

You talkin' to me
[[inpt PHON]] [[slnc 500]] [[rate -30]]
+yUW _1tAOl=kIHn ~AX [[pbas +3]]+mIY?

http://www.mattmontag.com/personal/mac-os-x-speech-synthesis-markup

Matt Montag 24.09.2011

comment

А вторая / третья строки - это какие-то варианты, которые делают голос более реальным? - tomsseisums; 27.09.2011

comment

Да, хорошо, это добавляет тонкую настройку акцентов и прочего. Для моего уха это звучит намного лучше. Вы также можете сделать вдох с помощью символа @. - Matt Montag; 27.09.2011

arrow_upward
0
arrow_downward

TTS, используемый Google Translate, неплохо подходит для коротких фраз, хотя может создавать неестественный интонационный контур для чего-либо сложного. Тем не менее, на уровне слов это впечатляет. Есть небольшой пример кода здесь

И есть Ivona - они могут делать немного больше ошибок артикуляции, чем, например, Google Translate, но у них несколько лучше по ритму и интонации. Посмотрите их голос "Raveena", он пока один из лучших.

Spike0xff 14.03.2014

arrow_upward
0
arrow_downward

Я знаю, что это старый вопрос, но я только что видел демонстрацию "Watson "от IBM, впечатляет !! У них есть поддержка нескольких языков, вы можете контролировать тон, паузы, интонацию и некоторые другие переменные.

Вам следует пойти и взглянуть, если вы все еще ищете это, или кто-то другой ищет хороший TTS.

Заявление об ограничении ответственности: я не работаю на IBM и не работаю в компании, связанной с этим продуктом, я просто нашел это впечатляющим!

Esteban Serna 18.08.2017

Высококачественный, эмоциональный, плавный и гибкий преобразователь текста в речь?

Список инструментов, которые я изучил:

Впечатляет, но есть место для улучшений (++)

С таким же успехом можно сотрудничать, чтобы получить больше ресурсов, чем работать над разными, но почти одинаковыми продуктами (-)

Ответы (3)

Похожие вопросы