Синтез речи — создание пользовательских голосов

Возможно ли программно взять образец чьего-то голоса и создать уникальный тон/свойство, которое можно использовать для создания синтезированной речи?

Например, человек А записывает себя. Из этого образца голоса создается уникальный тон, который преобразуется в синтезированную речь. Это позволяет людям использовать этот синтетический голос в программном обеспечении для преобразования текста в речь, записывая любой текст, который они хотят, который будет прочитан голосом человека А.

Возможно ли это в сегодняшних условиях? Я знаю, что есть компании, которые занимаются этим профессионально, но в целом возможно ли это с помощью программного обеспечения?


person Travier    schedule 08.04.2014    source источник
comment
en.wikipedia.org/wiki/Siri, en.wikipedia.org/wiki/Google_Now и т. д.   -  person ElGavilan    schedule 08.04.2014
comment
Если я правильно понимаю, что вы спрашиваете, то я бы ответил нет. Вы не можете создать полный голос, поэтому голос можно использовать для произвольных слов из одного тона. Вам нужны отдельные сэмплы для всех звуков, обычно по крайней мере для дифонов или лучших трифонов. Итак, полный каталог звуков каждой колонки.   -  person arkascha    schedule 08.04.2014
comment
Хорошо, большое спасибо, аркаша. Я просто подумал, что так же, как у каждого человека есть уникальный отпечаток пальца, возможно, разные голоса различимы по какому-то свойству. А ЭльГавилан, Сири так не работает. В нем используются рассказы, записанные реальной женщиной.   -  person Travier    schedule 08.04.2014
comment
Как уже сообщалось, нет, вы не можете сделать это с помощью одного тона, но вы можете сделать это всего с несколькими предложениями. Я являюсь одним из основателей Mivoq (mivoq.it): наш онлайн-сервис создания голосов полностью автоматизирован и работает всего в нескольких десятках предложений. Что вы можете попробовать, используя всего несколько предложений, так это найти похожий голос в большой базе данных голосов, как это делается на VocalID (vocalid.co/how).   -  person Giulio Paci    schedule 09.09.2016
comment
Я голосую за то, чтобы закрыть этот вопрос, потому что он не касается программирования, как это определено в справочном центре.   -  person desertnaut    schedule 13.03.2021


Ответы (1)


Используя методы адаптации диктора, вы можете добиться определенных результатов на сравнительно небольшом количестве обучающих выборок, но все же у вас должно быть несколько сотен предложений человека - желательно с фонетической транскрипцией.

Когда-то у нас было небольшое лабораторное задание для учащихся: они записывали свои голоса и обучали голосовую модель с помощью HTS (http://hts.sp.nitech.ac.jp/). «Самый простой» подход с использованием HTS — это загрузить «демонстрацию обучения в зависимости от говорящего» с этой страницы и заменить обучающие образцы речи своими собственными записями (теми же предложениями!). Мы сделали это для другого языка с нашим собственным пакетом.

Я думаю, что у MaryTTS (http://mary.dfki.de/) есть несколько более удобных инструментов для помощи в этом. процесс, но я никогда не работал с этим.

Но все же — для качественного озвучивания у вас должны быть тысячи записанных предложений.

person Markus Toman    schedule 29.08.2014