Ян Чжицзе — старший эксперт по алгоритмам и главный научный сотрудник по взаимодействию человека и машины в Alibaba Cloud. Его области исследований включают распознавание голоса, синтез голоса, распознавание и проверку говорящего, распознавание рукописного текста OCR и алгоритм машинного обучения. Он долгое время был членом экспертной группы ведущих научных конференций и журналов в области распознавания голоса. Кроме того, он владеет несколькими патентами США и РСТ.

В следующей статье кратко изложена его лекция об акустических и языковых моделях, принятых облачной технологией распознавания голоса Alibaba, включая акустическую модель LC-BLSTM, акустическую модель LFR-DFSMN и языковую модель NN-LM.

Облачная технология распознавания голоса Alibaba

Распознавание голоса играет важную роль в ИИ и взаимодействии человека с машиной. Он обеспечивает возможность голосового взаимодействия интеллектуальных бытовых устройств IoT, а также применим к государственным услугам и интеллектуальным государственным делам.

Как правило, современная система распознавания голоса состоит из трех основных компонентов: акустической модели, языковой модели и декодера. Такая система была самой популярной и широко используемой в области распознавания голоса, хотя в последнее время предпринимаются попытки построить сквозную систему распознавания голоса. Акустическая модель в основном используется для создания отображения вероятностей между голосовым вводом и выходом акустического устройства. Языковая модель описывает вероятность совпадения разных слов, чтобы распознанные предложения звучали больше как естественный текст. Декодер фильтрует оценки различных совпадений, комбинируя значения вероятности акустических единиц с языковой моделью, чтобы получить окончательные результаты распознавания с наибольшей вероятностью.

Распознавание голоса выигрывает от технологии глубокого обучения, которая в последние годы становится все более популярной. Акустическая модель HMM-DNN может заменить традиционную акустическую модель HMM-GMM, чтобы повысить точность распознавания голоса на 20%. Языковая модель NN-LM может работать с традиционной языковой моделью N-Gram для дальнейшего повышения точности. По сравнению с языковыми моделями акустические модели более совместимы с моделями глубоких нейронных сетей и поэтому привлекают больше исследователей.

Мы опишем акустические и языковые модели, принятые облачной технологией распознавания голоса Alibaba, включая акустическую модель LC-BLSTM, акустическую модель LFR-DFSMN и языковую модель NN-LM. Акустическая модель LC-BLSTM улучшена по сравнению с традиционной моделью BLSTM и обеспечивает высокую точность и низкую задержку. LFR-DFSMN улучшен по сравнению с акустической моделью RNN и обеспечивает более стабильный эффект обучения и более высокую точность распознавания благодаря сложной конструкции. Языковая модель NN-LM была улучшена по сравнению с традиционной языковой моделью N-Gram за последние годы.

Модель BLSTM с контролируемой задержкой

Модель полносвязной глубокой нейронной сети (DNN) увеличивает количество слоев и узлов в нейронной сети, чтобы помочь расширить возможности сети по абстрагированию и моделированию сложных данных. Однако у DNN есть некоторые недостатки. Например, DNN обычно использует коллаж кадров для оценки влияния контекстной информации на текущий голосовой кадр, что не является оптимальным методом для указания корреляции между голосовыми последовательностями. Рекуррентная нейронная сеть (RNN) может в некоторой степени решить проблему, поскольку она использует корреляцию между последовательностями данных посредством автоматического соединения узлов сети. Кроме того, некоторые исследователи предложили рекуррентную нейронную сеть с длительной кратковременной памятью (LSTM-RNN), которая может легко и эффективно смягчить взрыв градиента и исчезновение градиента, происходящие в простой RNN. После этого исследователи расширили LSTM и использовали двунаправленный LSTM-RNN (BLSTM-RNN) для акустического моделирования, чтобы полностью оценить влияние контекстной информации.

По сравнению с DNN, BLSTM может эффективно повысить точность распознавания голоса на 15-20%. Однако у BLSTM есть две важные проблемы:

  1. Скорость сходимости модели очень низкая при обновлении уровня предложения. Кроме того, большое количество покадровых вычислений снижает вычислительные возможности инструментов параллельных вычислений, таких как GPU, и делает обучение чрезвычайно трудоемким.
  2. BLSTM использует повторение всего предложения для вычисления апостериорной вероятности каждого кадра, что затрудняет управление задержкой декодирования и скоростью в реальном времени и значительно ограничивает использование модели BLSTM в реальных службах.

Для эффективного решения этих двух проблем академическое сообщество предлагает метод BLSTM с контекстно-зависимым блоком (CSC-BLSTM) и метод BLSTM с контролируемой задержкой (LC-BLSTM), улучшенную версию CSC-BLSTM. Основываясь на CSC-BLSTM и LC-BLSTM, Alibaba Cloud интегрирует гибридную структуру LC-BLSTM-DNN с методами обучения и оптимизации, такими как мультихост, мультикарта и 16-битная количественная оценка для акустического моделирования. По сравнению с моделью DNN модель LC-BLSTM-DNN снижает относительную частоту ошибок распознавания на 17-24%.

Типичный узел LSTM состоит из ячейки и трех ворот, а именно, входных ворот, забывающих ворот и выходных ворот. К каждому из вентилей подключены входной и выходной узлы и ячейка. Входные ворота и ворота забывания дополнительно связаны с ячейкой. Ячейка включает в себя самосвязь внутри. Управляя состоянием различных вентилей, мы можем улучшить долгосрочное и краткосрочное хранение информации и распространение ошибок.

Как и DNN, LSTM можно накладывать слой за слоем для создания глубокого LSTM. Чтобы лучше использовать контекстную информацию, вы можете складывать BLSTM слой за слоем, чтобы создать глубокую BLSTM, структура которой показана на следующем рисунке. В сети существует два процесса передачи информации (в прямом направлении и в обратном направлении) по временной шкале. Вычисление каждого таймфрейма зависит от результатов вычисления всех таймфреймов до и после текущего кадра. При обработке голосового сигнала как временной последовательности модель полностью учитывает влияние контекста на текущий голосовой кадр и, таким образом, значительно повышает точность классификации состояний фонемы.

Поскольку стандартный метод BLSTM моделирует все голосовые данные, процессы обучения и декодирования сталкиваются с такими проблемами, как низкая скорость сходимости, высокая задержка и низкая скорость в реальном времени. Alibaba Cloud использует LC-BLSTM для решения этих проблем. В отличие от стандартного BLSTM, который использует всю речь для обучения и декодирования, LC-BLSTM использует метод обновления, аналогичный усеченному BPTT, и специальные методы использования данных и обработки промежуточного состояния ячейки. Как показано на следующем рисунке, для каждого обновления во время обучения используется небольшой фрагмент данных. Данные состоят из центрального фрагмента и фрагмента, объединенного справа, при этом фрагмент, объединенный справа, используется только для вычисления промежуточного состояния ячейки, а ошибка распространяется только в центральном фрагменте. В сети, которая движется по временной шкале в прямом направлении, в качестве начального состояния следующего сегмента данных используется промежуточное состояние ячейки в момент, когда предыдущий сегмент данных заканчивается на центральном фрагменте. В сети, которая движется по временной шкале в обратном направлении, промежуточный статус ячейки устанавливается в 0 каждый раз, когда начинается сегмент данных. Такой метод ускоряет конвергенцию сети и повышает производительность сети. Данные обрабатываются в основном одинаково во время декодирования и обучения. Отличие состоит в том, что размеры центрального фрагмента и фрагмента, соединенного справа, можно регулировать по мере необходимости, и их не нужно настраивать так же, как во время обучения.

Модель LFR-DFSMN

FSMN — это зарождающаяся сетевая структура, которая эффективно моделирует дальнюю корреляцию сигналов, добавляя обучаемый блок памяти к скрытому слою полностью связанной нейронной сети с прямой связью (FNN). По сравнению с LC-BLSTM, FSMN более эффективно контролирует задержку, обеспечивает более высокую производительность и требует меньше вычислительных ресурсов. Однако стандартный FSMN неэффективен при обучении глубоких структур и дает плохой эффект обучения из-за проблемы исчезновения градиента. Модели глубокой структуры обладают надежными возможностями моделирования во многих областях. Мы предлагаем глубокую FSMN (DFSMN), улучшенную версию FSMN. Кроме того, мы интегрируем метод низкой частоты кадров (LFR) для создания эффективной акустической модели для распознавания голоса в реальном времени. По сравнению с акустической моделью LFR-LCBLSTM, выпущенной в прошлом году, новая модель повышает производительность более чем на 20% и ускоряет обучение и декодирование в 2-3 раза, что значительно экономит вычислительные ресурсы при внедрении системы.

На рисунке (а) выше показана структура самой ранней модели FSMN. По сути, FSMN — это FNN, которая моделирует окружающую контекстуальную информацию, добавляя блок памяти к скрытому слою для дальнейшего моделирования дальней корреляции сигналов временной последовательности. Блок памяти использует структуру задержки отводов, показанную на рисунке (b) выше, чтобы выразить выходные данные скрытого слоя в текущее время и предыдущие N моментов времени в неизменном формате посредством кодирования коэффициентов. FSMN опирается на дизайн фильтра цифровой обработки сигналов. То есть любой фильтр с бесконечной импульсной характеристикой (БИХ) можно аппроксимировать фильтром более высокого порядка с конечной импульсной характеристикой (КИХ). С точки зрения фильтров модель RNN, показанная на рисунке © выше, разработана с циркуляционным слоем, который эквивалентен БИХ-фильтру первого порядка, показанному на рисунке (d). FSMN использует блок памяти, эквивалентный КИХ-фильтру высокого порядка, как показано на рисунке (b) выше. Таким образом, FSMN работает так же, как RNN, в моделировании дальней корреляции сигналов и превосходит RNN, делая обучение более простым и стабильным, поскольку КИХ-фильтр работает более стабильно, чем БИХ-фильтр.

FSMN подразделяется на скалярный FSMN (sFSMN) и векторизованный FSMN (vFSMN) в зависимости от конкретного коэффициента кодирования блока памяти. sFSMN использует скаляр в качестве коэффициента кодирования блока памяти, а vFSMN использует вектор в качестве коэффициента кодирования блока памяти.

Эти FSMN учитывают влияние исторической информации только на текущее время, поэтому их также называют однонаправленными FSMN. Если мы примем во внимание как историческую информацию, так и будущую информацию для текущего момента времени, мы можем получить двунаправленную FSMN на основе однонаправленной FSMN.

По сравнению с FNN, FSMN использует выходные данные блока памяти в качестве дополнительных входных данных для следующего скрытого слоя. Таким образом, вводятся дополнительные параметры модели. Чем больше узлов имеет скрытый слой, тем больше параметров вводит FSMN. Исследование объединяет концепцию факторизации матриц низкого ранга с FSMN и обеспечивает улучшенную структуру FSMN, называемую компактной FSMN ( cFSMN). На следующем рисунке показана структура cFSMN I-го скрытого уровня, содержащего блоки памяти.

В cFSMN низкоразмерный слой линейной проекции добавляется за скрытым слоем, а блоки памяти добавляются к слою линейной проекции. Кроме того, cFSMN изменяет формулу кодирования блока памяти. Он явно добавляет выходные данные текущего момента времени к выражению блока памяти, чтобы можно было просто использовать выражение блока памяти в качестве входных данных для следующего уровня. Таким образом, количество параметров в модели эффективно сокращается, что ускоряет обучение сети.

На предыдущем рисунке показана структура глубокого FSMN (DFSMN). Первый кадр слева указывает на входной слой, а последний кадр справа указывает на выходной слой. Добавляя пропущенные соединения между блоками памяти в cFSMN, мы можем накапливать выходные данные блоков памяти на нижнем уровне для блоков памяти на более высоком уровне. Таким образом, градиент блоков памяти более высокого уровня назначается блокам памяти более низкого уровня, что решает проблему исчезающего градиента, вызванную глубиной сети, и обеспечивает стабильное обучение глубоких сетей.

По сравнению с cFSMN, DFSMN позволяет обучать очень глубокие сети с помощью пропусков соединений. В cFSMN каждый скрытый слой разбивается на двухслойную структуру посредством матричной факторизации низкого ранга. Для сети с четырьмя слоями cFSMN и двумя слоями DDN общее количество слоев будет равно 13. Используется больше слоев cFSMN, что приводит к проблеме исчезающего градиента и, кроме того, нестабильности в обучении. Создаваемый нами DFSMN позволяет избежать проблемы исчезающего градиента в глубоких сетях за счет пропуска соединений, что делает обучение глубоких сетей стабильным. Следует отметить, что пропускные соединения можно добавлять не только между соседними слоями, но и между несмежными слоями. Само соединение Skip может быть линейно или нелинейно преобразовано. В наших экспериментах мы реализовали обучение на DFSMN с десятками слоев, при этом производительность была намного лучше, чем у cFSMN.

По сравнению с FSMN, cFSMN может эффективно уменьшить параметры модели и обеспечить лучшую производительность, в то время как DFSMN, который мы повышаем на основе cFSMN, предлагает гораздо более высокую производительность модели. В следующей таблице сравниваются характеристики акустических моделей, основанных на BLSTM, cFSMN и DFSMN, с 2000-часовым заданием по английскому языку.

Из таблицы видно, что модель DFSMN предлагает на 14% более низкую частоту ошибок, чем модель BLSTM, при выполнении задачи продолжительностью 2000 часов, что является значительным улучшением производительности акустических моделей.

Входными данными для традиционной акустической модели являются акустические характеристики, извлеченные из каждого кадра голосового сигнала. Длина голоса каждого кадра обычно составляет 10 мс. Сигналы каждого входного голосового кадра имеют соответствующую выходную цель. В последнем исследовании была предложена схема моделирования с низкой частотой кадров (LFR), которая связывает своевременные соседние голосовые кадры для прогнозирования целевого вывода для среднего целевого вывода. В экспериментах производительность модели не снижается, когда связаны три (или более) соседних кадра. Таким образом, входные и выходные объемы уменьшаются до одной трети или менее, что значительно улучшает акустическую оценку и эффективность декодирования для системы распознавания голоса. Мы создали акустическую модель распознавания голоса на основе LFR-DFSMN, объединив LFR и DFSMN. Проведя несколько экспериментальных групп, мы, наконец, выбрали DFSMN с десятью слоями cFSMN, двумя слоями DNN и входом и выходом LFR. Общая частота кадров снижена на треть. В следующей таблице сравниваются результаты распознавания и лучший базовый уровень LC-BLSTM, который мы выпускаем.

Комбинируя технологию LFR, мы можем утроить скорость распознавания. В предыдущей таблице показано, что при масштабном промышленном применении модель LFR-DFSMN имеет на 20 % меньшую частоту ошибок, чем модель LFR-LC-BLSTM, демонстрируя лучшие возможности моделирования для крупномасштабных приложений данных.

Языковая модель NN

Языковая модель (LM) моделирует язык. Лингвистическое выражение можно рассматривать как строку последовательностей символов, причем разные последовательности символов представляют разные значения. Символы находятся в единице слова. Задачу языковой модели можно рассматривать как оценку вероятности или рациональности заданной последовательности символов.

P(Шанхайские рабочие сильны)›P(Шанхай были прокляты, сильны)

Возьмите это предложение в качестве примера. Языковая модель, оценивающая, являются ли «шанхайские рабочие могущественными» или «шанхайские проклятые могущественны», является более рациональной. Можно судить, что первое предложение более вероятно. Мы хотим, чтобы языковая модель давала вероятность, соответствующую нашим ожиданиям. В этом примере первое предложение должно иметь большую вероятность, чем второе предложение.

Традиционная модель n-грамм, основанная на статистике частотности слов, упрощает структуру модели и вычисления с помощью гипотезы Маркова. Он вычисляется путем подсчета и используется при поиске. Модель имеет более чем тридцатилетнюю историю благодаря простой оценке, стабильной работе и удобным вычислениям. Однако гипотеза Маркова требует сокращения длины моделирования, что делает невозможным моделирование длинной истории. Кроме того, оценка, основанная на частоте слов, делает модель негладкой, и для низкочастотных слов может быть сделана недостаточная оценка. С третьей эволюцией нейронных сетей (NN) были предприняты попытки использовать NN для языкового моделирования.

RNN — это типичная структура моделирования, которая теоретически может моделировать бесконечные последовательности с помощью рекурсии и обеспечивает бесшовное моделирование за счет всенаправленной связи между слоями. Это преодолевает недостатки Ngram в моделировании последовательностей. Исследователи предложили LSTM для преодоления недостатков базовой архитектуры RNN и повышения производительности моделирования.

NN используются крупномасштабными системами языкового моделирования и должны решать такие проблемы, как увеличение объема памяти и вычислительных ресурсов, необходимых для списков слов. Реальные онлайн-системы обычно поддерживают большие списки слов. По мере добавления новых списков слов базовой архитектуре RNN приходится иметь дело с экспоненциальным ростом размера хранилища и вычислительной нагрузки. Исследователи пытались решить эти проблемы. Наиболее прямое решение состоит в том, чтобы уменьшить размер словаря за счет кластеризации списка слов. Решение может значительно уменьшить размер списков слов, но приводит к снижению производительности. Альтернативным решением является фильтрация низкочастотных слов, но она также приводит к снижению производительности. Мы разработали лучший метод после того, как обнаружили, что основным фактором, ограничивающим скорость и производительность, является узел выходного слоя. На входном слое настраивается большой словарь, потому что большой размер входного слоя можно уменьшить за счет проекционного слоя. Сжимаются только списки слов на выходном слое, что помогает минимизировать потери, фильтровать низкочастотные слова, обеспечивает полное обучение узлов модели и повышает производительность.

Сжатие списка слов может повысить производительность моделирования и уменьшить размер хранилища и вычислительную нагрузку. Поскольку степень сжатия ограничена, нам необходимо дополнительно снизить вычислительную нагрузку сверх ограниченной степени сжатия. Доступно несколько методов. Например, LightRNN использует метод, аналогичный кластеризации, для сопоставления списков слов с матрицей с действительными значениями посредством встраивания. Фактический вывод содержит только строки и столбцы матрицы, что может быть примерно квадратным корнем исходной вычислительной нагрузки. Выход Softmax является фактором, способствующим большой вычислительной нагрузке, когда существует много узлов. Сумма узлов вычисляется как знаменатель. Если знаменатель заменить константой, вычисляются только необходимые узлы, что ускоряет тестирование. Регуляризация дисперсии - это метод значительного ускорения передачи вперед с минимальной потерей точности при условии, что скорость обучения является приемлемой. Чтобы одновременно ускорить обучение, вы можете рассмотреть такие методы выборки, как NCE, выборка по важности и черная выборка, при которых во время обучения вычисляются только положительные выборки (узлы с меткой 1) и отрицательные выборки, полученные путем распределения выборки. Это позволяет избежать медленных вычислений, вызванных высокой производительностью в случае, когда вычисляются все узлы. Прирост скорости существенный.

Пользовательское моделирование из Alibaba Cloud

Представьте себе, что разработчику, специализирующемуся на интеллектуальной телефонной службе поддержки клиентов или интеллектуальных конференц-системах, необходимо включить в своей системе распознавание голоса для преобразования голоса в текст. Разработчик застрял в дилемме. Он может потратить много времени и денег на изучение распознавания голоса с нуля. Накопление технологий в области ИИ, в которые интернет-гиганты вложили большое количество человеческих, материальных и финансовых ресурсов, занимает много времени. Разработчик также может использовать готовые и универсальные интерфейсы распознавания голоса, предоставляемые интернет-гигантами в Интернете. Второй вариант требует меньше времени, но может оставить разработчика неуверенным в точности преобразования голоса в текст, потому что интернет-гиганты настолько заняты, что никогда не утруждают себя оптимизацией для интересующих вас сценариев.

Есть ли способ получить оптимальный эффект распознавания голоса с минимальными вложениями? Ответ положительный. Основанное на ведущей в отрасли технологии интеллектуального голосового взаимодействия, разработанной Академией Alibaba DAMO, Alibaba Cloud революционизирует способ предоставления традиционных поставщиков голосовых технологий и предоставляет разработчикам набор оптимальных методов, адаптированных к интересующим их сценариям обслуживания, посредством облачного самообучения. для распознавания голоса в эпоху облачных вычислений. Alibaba Cloud позволяет разработчикам в короткие сроки ознакомиться с системными приложениями распознавания голоса за счет самостоятельного самообучения и привлечения ресурсов интернет-гигантов. Разработчики могут легко добиться лучшей в отрасли точности распознавания голоса в интересующем сценарии. Это новый способ поставки распознавания голоса в эпоху облачных вычислений.

Подобно другим технологиям искусственного интеллекта, распознавание голоса зависит от трех основных элементов: алгоритма, вычислительной мощности и данных. Основываясь на технологии интеллектуального голосового взаимодействия, разработанной Академией Alibaba DAMO, Alibaba Cloud продвигает передовую эволюцию алгоритма в международном сообществе и предоставила свое последнее исследовательское достижение акустической модели DFSMN в сообществах с открытым исходным кодом, чтобы позволить исследователям во всем мире воспроизводить оптимальные результаты и постоянно совершенствоваться.

Вычислительная мощность — это неотъемлемая сила облачных вычислений. На основе платформы Alibaba Cloud ODPS-PAI мы создали гибридную платформу обучения и обслуживания для ЦП, ГП, ПЛИС и NPU для оптимизации приложений распознавания голоса. Платформа обрабатывает массовые запросы на распознавание голоса в облаке Alibaba. Что касается данных, мы предоставляем готовые модели сценариев, обученные на массивных данных, охватывающих электронную коммерцию, обслуживание клиентов, правительство и ввод данных с мобильных телефонов.

Готовые модели должны быть настроены и оптимизированы для достижения оптимальной точности в сценариях, представляющих интерес для разработчиков. Такая настройка — рутинная работа поставщиков голосовых технологий, которые не могут гарантировать стоимость, продолжительность и управляемость. Alibaba Cloud предоставляет разработчикам самообучающуюся платформу для настройки, оптимизации и запуска моделей распознавания голоса с низкими затратами в короткие сроки. Alibaba Cloud внедряет инновационные инструментальные платформы, услуги и технологии, используемые для широкой настройки службы голосовых сообщений, на основе мощной инфраструктуры в эпоху облачных вычислений. Разработчикам нужно только использовать простой инструмент самообучения, предоставляемый Alibaba Cloud, знания сценариев и данные для достижения оптимального эффекта в конкретных сценариях и постоянного улучшения итерации по мере необходимости, не беспокоясь о фоновых технологиях и службах.

Функции самообучающейся платформы Alibaba Cloud Intelligent Voice

Легко использовать

Платформа самообучения Alibaba Cloud Intelligent Voice предоставляет решение для оптимизации голоса одним щелчком мыши и самообслуживания с революционными функциями. Решение значительно снижает барьер интеллектуальной оптимизации голоса и позволяет технически невооруженному бизнес-персоналу значительно повысить точность распознавания голоса в своих услугах.

Быстрый

Платформа самообучения Alibaba Cloud Intelligent Voice может оптимизировать, тестировать и запускать модели, ориентированные на услуги, в течение нескольких минут и оптимизировать модные словечки, связанные с услугами, в режиме реального времени. Это сокращает длительный период традиционной настройки и оптимизации, который в противном случае длился бы несколько недель или месяцев.

Точный

Оптимизация платформы Alibaba Cloud Intelligent Voice Self-learning полностью проверена многими внутренними и внешними партнерами и проектами. Это помогает многим проектам решить проблемы с доступностью и сделать достижения недостижимыми для конкурентов, использующих традиционные методы оптимизации.

Например, разработчики могут использовать следующие методы самообучения для настройки моделей в интересующих их областях:

Настройка модных словечек, связанных с обслуживанием

Многие специализированные сценарии требуют усовершенствования для быстрого распознавания специальных слов. (Примечание: включены два режима. В режиме I другие слова легко распознаются как специальные слова; в режиме II специальные слова распознаются как другие слова.) Применение технологии загрузки модных слов в реальном времени позволяет устанавливать уровни для модных слов. в сценариях в реальном времени, тем самым улучшая распознавание модных словечек.

Настройка модных слов на основе классов

Во многих случаях одно и то же произношение или атрибут необходимо распознавать по-разному в зависимости от конкретного контекста. Типичным примером является распознавание контактов и географических названий. Например, китайские личные имена 张阳 и 章扬 с одинаковым произношением «Чжан Ян» должны быть распознаны как разные люди, чтобы идентифицировать их соответствующие контакты. Точно так же два разных китайских места 安溪 и 安西 с одинаковым произношением «Anxi» должны распознаваться по-разному, чтобы перейти к ожидаемому месту. В духе того, что каждый заслуживает уважения, платформа самообучения Alibaba Cloud Intelligent Voice предоставляет возможность настройки в рамках класса контактов и класса географических названий для достижения дифференциального и точного распознавания.

Настройка модели для конкретной службы

Вы можете ввести текст для конкретного поля, такой как профиль отрасли или компании, записи чата службы поддержки клиентов, а также общий словарь и термины поля, чтобы быстро создать пользовательскую модель для отрасли. Вы можете гибко вызывать соответствующую пользовательскую модель по мере необходимости.

С помощью этих методов разработчики могут сосредоточиться на знаниях и сборе данных в знакомых вертикальных областях, не беспокоясь о голосовых алгоритмах и деталях инженерных услуг. Новый способ предоставления голосовых технологий в облаке приносит пользу разработчикам и улучшает их бизнес-результаты.

Ссылка: https://www.alibabacloud.com/blog/core-technologies-of-alibaba-cloud-voice-recognition-model_594273?spm=a2c41.12420553.0.0