Виртуальный помощник NVIDIA Riva с Rasa

Раса и Рива очень хорошо делают друг другу комплименты

Введение

Для разработки виртуального помощника с речевым интерфейсом необходимы четыре ключевых элемента. первым является распознавание речи, также называемое автоматическим распознаванием речи или преобразованием речи в текст. Следовательно, расшифровка пользователя

речь в текст. Это точка касания пользователя ввода.

Секунда – это вывод в точку касания пользователя. Преобразование текста в речь. И желательно естественное звучание речи. Это также называется Test-To-Speech или Speech Synthesis.

Эти два элемента должны иметь низкую задержку, предпочтительно менее 300 миллисекунд. Тоже требует дрессировки.

Остальные два элемента являются синонимами текстовых диалоговых агентов; управление диалогами и понимание естественного языка. Раса — это авангард, когда дело доходит до этих двух элементов.

Во второй конфигурации демонстрационного приложения Riva & Rasa Riva выполняет обработку естественного языка.

В настоящее время в NVIDIA Riva доступны модели ASR, NLU и TTS. Тренировался на тысячах часов речевых данных.

В дорожной карте Riva есть и другие когнитивные элементы, такие как компьютерное зрение. Компонент зрения включает в себя активность губ, распознавание взгляда, распознавание жестов и многое другое.

Впервые я услышал об этом от компании Fjord Design & Innovation, где они назвали некоторые из этих элементов явлением, называемым скорость лица.

Face Speed – это сигналы и намеки, которые мы улавливаем из жестов, выражений лица и движения губ.

Включив эти элементы в свою дорожную карту, Джарвис готов стать настоящим собеседником, получающим сигналы от внешнего вида говорящего.

Что делает это сотрудничество между NVIDA и Rasa таким привлекательным, так это то, что это сочетание двух технологических сред, которые нуждаются друг в друге настолько, насколько они дополняют друг друга.

Это путь к голосовому включению цифрового помощника Rasa.

Настройка среды

В статье на Medium, посвященной началу работы с вашей средой NVIDIA Riva, вы найдете пошаговое руководство по настройке экземпляра виртуальной машины с использованием AWS EC2. Стоимость всегда имеет значение, если вы просто экспериментируете, особенно если вы платите в более слабой валюте.

Экземпляр EC2 также можно запускать и останавливать, чтобы сэкономить на затратах.

Туннели SSH творят чудеса при доступе к URL-адресам на виртуальной машине, задержка является проблемой при тестировании диалогового агента в голосовом режиме.

Почему Раса?

Rasa — это комплексное решение для платформы чат-ботов для любой реализации, в которой пользовательский ввод не является голосовым. Следовательно, текстовый ввод, который включает в себя диалоговые компоненты, такие как кнопки, ссылки и т. д.

Следует отметить, что с точки зрения разговорного ИИ Rasa обладает всеми необходимыми функциями и элементами.

Элементы, делающие Rasa хорошим вариантом для среды NVIDIA Riva:

  • Бесплатно скачать и использовать.
  • Содержит и полную структуру чат-бота.
  • Открытая архитектура для интеграции.
  • Установите в любом месте.

Для включения речи Rasa требуется следующее дополнение:

  • Автоматическое распознавание речи (также известное как преобразование речи в текст)
  • Синтез речи (также известный как преобразование текста в речь)

Было бы упущением не упомянуть, что возможности NLP в Riva значительны, и, следовательно, два архитектурных подхода, упомянутых в начале. Не обязательно выбирать между НЛУ/П Ривы или Расы. Их можно использовать вместе и дополнять друг друга.

Базовая последовательность событий показывает, как можно использовать возможности НЛП Ривы и НЛУ Расы, особенно для более длительного ввода.

И последнее размышление о том, почему Rasa. В настоящее время Rasa является единственной развитой диалоговой средой промышленного уровня, которая использует машинное обучение для управления диалогами; то, что в настоящее время в большинстве случаев является конечным автоматом в других системах.

Благодаря видению Rasa отказа от классификации намерений, а также диалога (или сценария бота), гибкость соответствует видению Riva.

Запуск демонстрации

Чтобы запустить демонстрацию, а также проверить правильность установки, следуйте пошаговым инструкциям, приведенным здесь. Существует два режима работы диалогового агента: один с Rasa NLU, а другой с Riva NLP.

Диалоговый агент обслуживается на https://0.0.0.0:5555/rivaWeather и выглядит как уменьшенная версия того, что вы видите в официальных демонстрационных видеороликах.

Демонстрация может до некоторой степени обрабатывать светскую беседу.

Чтобы запустить погодного бота, обязательно добавьте ключ Weather API в конфигурацию Riva. У меня были проблемы с извлечением ключа из действия Rasa Weather, поэтому я жестко закодировал его в действии.

(rasa) root@156ggcbd3bg9:/workspace/samples/rasa-chatbot/rasa-weatherbot/actions# vim weather.py

Вам также потребуется настроить конфигурацию сети, чтобы демо-версия работала. В базе кода есть два места, которые необходимо настроить для взаимодействия между службами:

rasa-chatbot/rasa-weatherbot/endpoints.yml

и…

rasa-chatbot/config.py

Доступ к диалоговому агенту через браузер на моем компьютере включен с настройкой туннеля SSH на порт 5555 на AMI.

Вывод

У NVIDIA Riva есть амбициозная дорожная карта: стать встроенным голосовым помощником с голосовыми и визуальными возможностями. Справедливость не будет воздана способностям Ривы с помощью такого средства, как телефонный звонок. А скорее встроенное в приложение на телефоне, смарт-устройствах или умном доме со звуком и зрением.

Как уже упоминалось, возможности вызова Riva NLP проницательны, и управление состоянием может быть облегчено в Riva. Интеграция с существующей текстовой базой цифровых помощников сослужит хорошую службу Riva.



«Подпишитесь на мою рассылку.
НЛП/НЛУ, Чат-боты, Голос, Разговорный UI/UX, CX Designer, Разработчик, Вездесущие пользовательские интерфейсы, Ambient…кобусгрейлинг. меня"