Устаревание конечного автомата диалога чат-бота неизбежно?

И как может выглядеть лучший подход…

Введение

Проще говоря, идея модели машинного обучения состоит в том, чтобы получать данные и возвращать данные. Что должно отличать его, так это то, что ввод и вывод данных не совпадают один к одному.

Модель должна иметь возможность оценивать данные, полученные от пользователя, и, в свою очередь, отвечать данными, которые лучше всего соответствуют введенным пользователем данным.

Следовательно, существует процесс оценки, и создается список наиболее подходящих с различными показателями достоверности.

Идеалом для реализации диалогового ИИ является наличие такого уровня гибкости на разных уровнях стека технологий.

Где пользователь может вводить данные в чат-бот, и чат-бот дает наиболее подходящий ответ. Каждый ход диалога основывается на наиболее вероятном следующем шаге в разговоре. Сохраняя контекст и преемственность на протяжении всего разговора.

Три элемента архитектуры чат-бота, которые на каком-то этапе должны быть признаны устаревшими, – это управление диалогами конечного автомата, намерения и ответы бота.

Его часто называют диалоговым агентом уровня 4 и 5, предлагающим неограниченное взаимодействие на сложном естественном языке.

Очевидно, в области реализации чат-бота.

Текущий статус-кво чат-бота находится между распознаванием ключевых слов и структурированным намерением и сопоставлением сущностей.

Но что такое чат-бот 4 и 5 уровня?

Общие замечания о чат-ботах 4 и 5 уровней

Rasa описывает чат-ботов 4-го уровня следующим образом:

Ассистент 4-го уровня знает вас гораздо подробнее. Ему не нужно спрашивать каждую деталь, вместо этого он быстро проверяет несколько заключительных вещей, прежде чем предоставить вам предложение, адаптированное к вашей реальной ситуации.

И, помимо супер персонализированного опыта, мы хотим представить чат-бота, в котором пользователь может:

  • полностью натуральный
  • неструктурированный разговор
  • и где разговор динамичный.

На практике, чтобы иметь настоящего чат-бота или диалогового агента 4-го и 5-го уровней, необходимо устранить слои ограничений и жесткости. Другими словами, жесткие слои, которые вводят этот прямолинейный подход, требуют устаревания.

Можно сказать, что традиционно чат-боты или диалоговые агенты ИИ состоят из четырех столпов архитектуры.

Эта архитектура очень универсальна для коммерческих платформ чат-ботов; существование:

  • Намерения
  • Сущности
  • Ответы бота (он же скрипт/диалог бота)
  • Диалоговое окно Sate Machine Management

Четыре столпа традиционной архитектуры чат-ботов. Для чат-бота уровня 4/5 необходимо убрать жесткость в намерениях, ответах бота и управлении состоянием диалога. Как также показано на изображении ниже…

Позвольте мне объяснить…

Как видно здесь, есть два компонента; компонент NLU и компонент управления диалогами. В случае с Microsoft, Rasa, Amazon Lex, Oracle и т. д. различие и разделение между этими двумя компаниями является четким и отчетливым. В случае с IBM Watson Assistant это не так.

Компонент NLU состоит из намерений и объектов. И компонент Dialog по ответам бота и конечный автомат.

На пути к тому, чтобы чат-боты стали настоящими агентами ИИ, мешают три фактора: намерения, конечные автоматы и ответы ботов.

Три области жесткости обозначены стрелками, как описано здесь.

  • Например, высказывание пользователя сопоставляется с одним предопределенным намерением.
  • в свою очередь, единственное намерение назначается точке входа в жестком конечном автомате, чтобы бот мог ответить.
  • Конечный автомат имеет жестко запрограммированный ответ пользователю для каждого узла диалогового диалога. Иногда формулировка возврата включает в себя переменные, чтобы иметь некоторый элемент индивидуального ответа.

Намерения можно рассматривать как глаголыили пользовательские намерения и сущности как существительные (города, даты, имена и т. д.). .

Итак, ясно, что с этими тремя уровнями жесткости переход к уровням 4 и 5 серьезно затруднен.

В идеальном сценарии пользовательский ввод напрямую сопоставляется с историей машинного обучения, которая может учиться и адаптироваться на основе разговоров пользователей.

Разрушение жесткости существующей архитектуры, в которой машинное обучение существует только для сопоставления пользовательского ввода с намерением и сущностями.

1. Управление состоянием разговора

В то время как модель NLU представляет собой модель машинного обучения, где на стороне модели NLU есть смысл интерпретации пользовательского высказывания, а намерения и сущности назначаются пользовательскому вводу…

Пользовательское высказывание назначается намерению. В свою очередь, намерение связано с определенной точкой конечного автомата.

…даже несмотря на то, что модель не была обучена этому конкретному высказыванию…

Это не относится к диспетчеру состояний диалога, также называемому системой потока диалогов.

В большинстве случаев это подход дерева решений, при котором намерения, объекты и другие условия оцениваются для определения следующего состояния диалога.

Разговор пользователя диктуется этим жестким и предопределенным потоком с условиями и логикой, активирующими узел диалога.

Здесь Раса оказывается единственной в этой категории; изобретены и внедрены ими. Там, где они применяют машинное обучение, и платформа вычисляет вероятный узел следующего разговора на основе пользовательских историй.

stories:
- story: collect restaurant booking info  # name of the story - just for debugging
  steps:
  - intent: greet                         # user message with no entities
  - action: utter_ask_howcanhelp
  - intent: inform                        # user message with no entities
    entities:
    - location: "rome"
    - price: "cheap"
  - action: utter_on_it                  # action that the bot should execute
  - action: utter_ask_cuisine
  - intent: inform
    entities:
    - cuisine: "spanish"
  - action: utter_ask_num_people

Пример историй из: #https://rasa.com/docs/rasa/stories. 👆

Подход Rasa кажется довольно нелогичным… вместо того, чтобы определять условия и правила для каждого узла, чат-боту представлены реальные разговоры. Затем чат-бот учится на этих диалоговых последовательностях, чтобы управлять будущими разговорами.

Эти различные разговоры, называемые раса-историями, являются учебными данными, используемыми для создания моделей управления диалогами.

2. Намерения

Устаревание намерений было введено Rasa, IBM, Microsoft и Alexa. Пусть даже только в экспериментальной и ограниченной мощности.

Причина этого в том, что обычно определяется конечный список намерений.

Впоследствии каждый запрос пользователя необходимо сопоставить или сопоставить с одним заранее определенным намерением. Это трудная задача, чтобы разделить область интересов чат-бота на различные намерения.

Одновременно гарантируя, что нет совпадений или пробелов с определенными намерениями. Но что, если бы мы могли перейти непосредственно от пользовательского высказывания к смыслу? К наиболее подходящему диалогу для пользовательского высказывания?

Традиционно каждый мыслимый пользовательский ввод должен быть назначен определенному намерению. Во время просмотра расшифровки, если пользовательский ввод не точно соответствует существующему намерению, необходимо придумать намерение.

Этот тесный слой категоризации пользовательского высказывания в соответствии с намерением является жестким и негибким в том смысле, что он представляет собой набор категорий, который управляет разговором.

Следовательно, в чат-боте первой линией облегчения разговора является распознавание намерений.

И в этом заключается проблема: на большинстве платформ чат-ботов существует своего рода модель машинного обучения, используемая для присвоения пользователю высказывания определенного намерения.

Намерения также являются жесткой частью чат-бота. Любой мыслимый пользовательский ввод должен быть предусмотрителен и сопоставлен с единым намерением.

И отсюда намерение привязывается к определенной точке конечного автомата (также известному как дерево диалогов). Как видно из приведенной ниже последовательности, пользователь ввел «Я думаю о покупке собаки». соответствует намерению Купить собаку. И отсюда намерения жестко привязаны к точкам входа в диалог.

Намерения также являются жестким слоем внутри чат-бота. Любой мыслимый пользовательский ввод необходимо предвидеть и сопоставлять с единым намерением.

Опять же, список намерений жесткий и фиксированный. Впоследствии каждое намерение связывается с частью предопределенного диалога.

Пользовательский ввод соответствует одному намерению. Идентифицированное намерение является частью фиксированного списка намерений. В свою очередь, каждое намерение назначается части диалога.

Пользовательский ввод соответствует одному намерению. Идентифицированное намерение является частью фиксированного списка намерений. В свою очередь, каждое намерение назначается части диалога.

Но что, если слой намерений может быть объявлен устаревшим, а пользовательский ввод может отображаться непосредственно в диалоговом окне?

Эта разработка имеет решающее значение для перехода от бота для обмена сообщениями к разговорному интерфейсу ИИ.

Этот слой намерений также является слоем перевода, который мутит разговорную воду.

Наличие необязательных намерений и параллельное выполнение двух подходов позволяет использовать или обходить намерения в диалоге.

3. Текст Chabot или диалог возврата (NLG)

Генерация естественного языка — это преобразование структурированных данных в диалоговый формат.

Сценарий или диалог, который чат-бот возвращает и представляет пользователю, также четко определен и негибок.

Обзор ресторана создается из нескольких ключевых слов и названия ресторана.

Формулировка, возвращаемая чат-ботом, очень тесно связана один с другим с определенным узлом состояния диалога.

Каждый диалоговый узел имеет заданный ответ.

GPT-3 стремится изменить это, и они обесценили все три элемента.

Нет необходимости в определенных объектах, управлении состоянием диалога и контексте разговора, просто происходит.

И, наконец, диалоговое окно возврата или его формулировка устарели с генерацией естественного языка в реальном времени (NLG).

Несмотря на то, что GPT-3 сделал этот скачок, что делает его потрясающей демонстрацией и прототипом, есть несколько подводных камней.

Некоторые подводные камни:

  1. В некоторых случаях требуется большое количество обучающих данных.
  2. Аберрации в NLG могут привести к плохому взаимодействию с пользователем.
  3. Тон, характер бота и качество ответов могут быть потеряны.

Заключение

В GPT-3 действительно обесценены все три элемента: намерения, управление состоянием диалога и текст/диалог ответа бота.

Но за счет тонкой настройки, форм и политик и использования небольшого количества обучающих данных.

Необходимо найти баланс, при котором сложность под капотом проявляется через простой и эффективный интерфейс разработки. Без удержания пользователей в среде с низким кодом без возможности тонкой настройки и настройки фреймворка.



«Подпишитесь на мою рассылку.
НЛП/НЛУ, Чат-боты, Голос, Разговорный UI/UX, CX Designer, Разработчик, Вездесущие пользовательские интерфейсы, Ambient…кобусгрейлинг. мне"