Виртуальный помощник NVIDIA Riva с Rasa
Раса и Рива очень хорошо делают друг другу комплименты
Введение
Для разработки виртуального помощника с речевым интерфейсом необходимы четыре ключевых элемента. первым является распознавание речи, также называемое автоматическим распознаванием речи или преобразованием речи в текст. Следовательно, расшифровка пользователя
речь в текст. Это точка касания пользователя ввода.
Секунда – это вывод в точку касания пользователя. Преобразование текста в речь. И желательно естественное звучание речи. Это также называется Test-To-Speech или Speech Synthesis.
Эти два элемента должны иметь низкую задержку, предпочтительно менее 300 миллисекунд. Тоже требует дрессировки.
Остальные два элемента являются синонимами текстовых диалоговых агентов; управление диалогами и понимание естественного языка. Раса — это авангард, когда дело доходит до этих двух элементов.
Во второй конфигурации демонстрационного приложения Riva & Rasa Riva выполняет обработку естественного языка.
В настоящее время в NVIDIA Riva доступны модели ASR, NLU и TTS. Тренировался на тысячах часов речевых данных.
В дорожной карте Riva есть и другие когнитивные элементы, такие как компьютерное зрение. Компонент зрения включает в себя активность губ, распознавание взгляда, распознавание жестов и многое другое.
Впервые я услышал об этом от компании Fjord Design & Innovation, где они назвали некоторые из этих элементов явлением, называемым скорость лица.
Face Speed – это сигналы и намеки, которые мы улавливаем из жестов, выражений лица и движения губ.
Включив эти элементы в свою дорожную карту, Джарвис готов стать настоящим собеседником, получающим сигналы от внешнего вида говорящего.
Что делает это сотрудничество между NVIDA и Rasa таким привлекательным, так это то, что это сочетание двух технологических сред, которые нуждаются друг в друге настолько, насколько они дополняют друг друга.
Это путь к голосовому включению цифрового помощника Rasa.
Настройка среды
В статье на Medium, посвященной началу работы с вашей средой NVIDIA Riva, вы найдете пошаговое руководство по настройке экземпляра виртуальной машины с использованием AWS EC2. Стоимость всегда имеет значение, если вы просто экспериментируете, особенно если вы платите в более слабой валюте.
Экземпляр EC2 также можно запускать и останавливать, чтобы сэкономить на затратах.
Туннели SSH творят чудеса при доступе к URL-адресам на виртуальной машине, задержка является проблемой при тестировании диалогового агента в голосовом режиме.
Почему Раса?
Rasa — это комплексное решение для платформы чат-ботов для любой реализации, в которой пользовательский ввод не является голосовым. Следовательно, текстовый ввод, который включает в себя диалоговые компоненты, такие как кнопки, ссылки и т. д.
Следует отметить, что с точки зрения разговорного ИИ Rasa обладает всеми необходимыми функциями и элементами.
Элементы, делающие Rasa хорошим вариантом для среды NVIDIA Riva:
- Бесплатно скачать и использовать.
- Содержит и полную структуру чат-бота.
- Открытая архитектура для интеграции.
- Установите в любом месте.
Для включения речи Rasa требуется следующее дополнение:
- Автоматическое распознавание речи (также известное как преобразование речи в текст)
- Синтез речи (также известный как преобразование текста в речь)
Было бы упущением не упомянуть, что возможности NLP в Riva значительны, и, следовательно, два архитектурных подхода, упомянутых в начале. Не обязательно выбирать между НЛУ/П Ривы или Расы. Их можно использовать вместе и дополнять друг друга.
Базовая последовательность событий показывает, как можно использовать возможности НЛП Ривы и НЛУ Расы, особенно для более длительного ввода.
И последнее размышление о том, почему Rasa. В настоящее время Rasa является единственной развитой диалоговой средой промышленного уровня, которая использует машинное обучение для управления диалогами; то, что в настоящее время в большинстве случаев является конечным автоматом в других системах.
Благодаря видению Rasa отказа от классификации намерений, а также диалога (или сценария бота), гибкость соответствует видению Riva.
Запуск демонстрации
Чтобы запустить демонстрацию, а также проверить правильность установки, следуйте пошаговым инструкциям, приведенным здесь. Существует два режима работы диалогового агента: один с Rasa NLU, а другой с Riva NLP.
Диалоговый агент обслуживается на https://0.0.0.0:5555/rivaWeather и выглядит как уменьшенная версия того, что вы видите в официальных демонстрационных видеороликах.
Демонстрация может до некоторой степени обрабатывать светскую беседу.
Чтобы запустить погодного бота, обязательно добавьте ключ Weather API в конфигурацию Riva. У меня были проблемы с извлечением ключа из действия Rasa Weather, поэтому я жестко закодировал его в действии.
(rasa) root@156ggcbd3bg9:/workspace/samples/rasa-chatbot/rasa-weatherbot/actions# vim weather.py
Вам также потребуется настроить конфигурацию сети, чтобы демо-версия работала. В базе кода есть два места, которые необходимо настроить для взаимодействия между службами:
rasa-chatbot/rasa-weatherbot/endpoints.yml
и…
rasa-chatbot/config.py
Доступ к диалоговому агенту через браузер на моем компьютере включен с настройкой туннеля SSH на порт 5555 на AMI.
Вывод
У NVIDIA Riva есть амбициозная дорожная карта: стать встроенным голосовым помощником с голосовыми и визуальными возможностями. Справедливость не будет воздана способностям Ривы с помощью такого средства, как телефонный звонок. А скорее встроенное в приложение на телефоне, смарт-устройствах или умном доме со звуком и зрением.
Как уже упоминалось, возможности вызова Riva NLP проницательны, и управление состоянием может быть облегчено в Riva. Интеграция с существующей текстовой базой цифровых помощников сослужит хорошую службу Riva.
«Подпишитесь на мою рассылку.
НЛП/НЛУ, Чат-боты, Голос, Разговорный UI/UX, CX Designer, Разработчик, Вездесущие пользовательские интерфейсы, Ambient…кобусгрейлинг. меня"