Перевод в реальном времени с помощью Alibaba Cloud

Кто-нибудь пробовал использовать Alibaba Cloud SDK для создания приложений для видеозвонков в реальном времени? Когда я прошу службу поддержки, они сказали, что услуга видеозвонков недоступна для международного облака Alibaba, а для китайского - есть. Они также упомянули, что я могу попробовать использовать их SDK. Я спрашиваю их об упомянутых SDK прямо сейчас, что это за SDK.

Если есть кто-то, у кого есть опыт в соответствующей области или технологиях, пожалуйста, помогите мне разобраться, стоит ли использовать облако Alibaba или использовать другой облачный сервис, поскольку облако Alibaba не поддерживает мультиоблака.

Буду очень признателен, спасибо !!!

Связанный документ от Alibaba из Китая:

Преобразование речи в текст из аудиоданных в RTC [Windows]

Преобразование речи в текст из аудиоданных в RTC [Android]

Распознавание речи в реальном времени

Машинный перевод Alibaba Cloud


person Pisethpanha Chhean    schedule 28.01.2021    source источник


Ответы (1)


Хорошие новости: есть много потенциальных поставщиков и вариантов для чего-то вместе.

Плохая новость: это непростая задача, а продукты ведущих исследовательских и продуктовых групп не очень надежны.

Список всех поставщиков API машинного перевода для самообслуживания можно найти на странице modelfront.com/compare. Большинство из тех же поставщиков также предлагают API распознавания речи, и распознавание речи также доступно на многих устройствах.

Но, в зависимости от вашего сценария, вам может быть лучше использовать подход «речь в речь» (вместо объединения нескольких систем) и даже локальную модель (вместо внешнего API) по трем причинам: качество и задержка, а также их взаимодействие, заключающееся в том, что пользователи не хотят ждать полного предложения, но им также не нравится мерцающий по мере появления новых слов.

Если вы выполните поиск в r / machinetranslation по запросу речь ИЛИ синхронный ИЛИ перевод, вы найдете:

  • объявление о запуске режима переводчика из Google Assistant

  • объявление Baidu об улучшении качества

  • две статьи Маттиа ди Ганги из FBK

  • мерцающий документ от Google (Повторный перевод вместо потоковой передачи для синхронного перевода)

  • статья и статья Translatron от Google

  • ландшафтный опрос от Apple

  • репозиторий GitHub набора инструментов NeurST от ByteDance (TikTok)

На WMT 2019 был основной доклад от Baidu Research по этому поводу, а недавно немного больше о мерцании от Google, но оба сосредоточились на собственных продуктах, а не на предложениях для внешних разработчиков.

person Adam Bittlingmayer    schedule 28.01.2021
comment
Спасибо за описательный ответ, теперь я решаю использовать сервер мультимедиа с открытым исходным кодом, такой как Jitsi, и объединить его с услугой сквозного перевода, такой как Перевод мультимедиа из Google или Перевод речи из Microsoft. Я склоняюсь к переводу речи Microsoft. Я выбрал Microsoft, так как мне нужен перевод в основном на китайский, японский и английский языки. Но я не знаю, возможно ли использовать его с Jitsi (jigasi), комбинируя их с Microsoft Speech Translation, для создания приложения для видеозвонков в реальном времени для Интернета и Android. Буду признателен за ваши мысли по этому поводу. Спасибо. - person Pisethpanha Chhean; 01.02.2021
comment
Плохая новость, Microsoft Azure недоступен в моей стране (Камбоджа). Поэтому я не могу протестировать услугу непрерывного перевода речи. Знаете ли вы какие-либо другие подобные услуги? Основные языки - китайский, японский и английский. заранее спасибо - person Pisethpanha Chhean; 02.02.2021
comment
Я бы посоветовал просто отделить ваш бизнес и / или местоположение учетной записи от вашего физического местоположения с точки зрения поставщиков IaaS. Получите кредитную карту или что-то еще в регионе, который они поддерживают, с помощью друга или чем угодно, что вам нужно сделать, или вы будете повторять это снова и снова. - person Adam Bittlingmayer; 03.02.2021