Синтез речи — создание пользовательских голосов

Возможно ли программно взять образец чьего-то голоса и создать уникальный тон/свойство, которое можно использовать для создания синтезированной речи?

Например, человек А записывает себя. Из этого образца голоса создается уникальный тон, который преобразуется в синтезированную речь. Это позволяет людям использовать этот синтетический голос в программном обеспечении для преобразования текста в речь, записывая любой текст, который они хотят, который будет прочитан голосом человека А.

Возможно ли это в сегодняшних условиях? Я знаю, что есть компании, которые занимаются этим профессионально, но в целом возможно ли это с помощью программного обеспечения?

voice speech-synthesis

Travier 08.04.2014 источник

comment

en.wikipedia.org/wiki/Siri, en.wikipedia.org/wiki/Google_Now и т. д. - ElGavilan 08.04.2014

comment

Если я правильно понимаю, что вы спрашиваете, то я бы ответил нет. Вы не можете создать полный голос, поэтому голос можно использовать для произвольных слов из одного тона. Вам нужны отдельные сэмплы для всех звуков, обычно по крайней мере для дифонов или лучших трифонов. Итак, полный каталог звуков каждой колонки. - arkascha 08.04.2014

comment

Хорошо, большое спасибо, аркаша. Я просто подумал, что так же, как у каждого человека есть уникальный отпечаток пальца, возможно, разные голоса различимы по какому-то свойству. А ЭльГавилан, Сири так не работает. В нем используются рассказы, записанные реальной женщиной. - Travier 08.04.2014

comment

Как уже сообщалось, нет, вы не можете сделать это с помощью одного тона, но вы можете сделать это всего с несколькими предложениями. Я являюсь одним из основателей Mivoq (mivoq.it): наш онлайн-сервис создания голосов полностью автоматизирован и работает всего в нескольких десятках предложений. Что вы можете попробовать, используя всего несколько предложений, так это найти похожий голос в большой базе данных голосов, как это делается на VocalID (vocalid.co/how). - Giulio Paci 09.09.2016

comment

Я голосую за то, чтобы закрыть этот вопрос, потому что он не касается программирования, как это определено в справочном центре. - desertnaut 13.03.2021

Ответы (1)

arrow_upward
4
arrow_downward

Используя методы адаптации диктора, вы можете добиться определенных результатов на сравнительно небольшом количестве обучающих выборок, но все же у вас должно быть несколько сотен предложений человека - желательно с фонетической транскрипцией.

Когда-то у нас было небольшое лабораторное задание для учащихся: они записывали свои голоса и обучали голосовую модель с помощью HTS (http://hts.sp.nitech.ac.jp/). «Самый простой» подход с использованием HTS — это загрузить «демонстрацию обучения в зависимости от говорящего» с этой страницы и заменить обучающие образцы речи своими собственными записями (теми же предложениями!). Мы сделали это для другого языка с нашим собственным пакетом.

Я думаю, что у MaryTTS (http://mary.dfki.de/) есть несколько более удобных инструментов для помощи в этом. процесс, но я никогда не работал с этим.

Но все же — для качественного озвучивания у вас должны быть тысячи записанных предложений.

Markus Toman 29.08.2014

Синтез речи — создание пользовательских голосов

Ответы (1)

Похожие вопросы