Ландшафт модели большого языка

Количество коммерческих и открытых провайдеров LLM резко возросло за последние 2 года, и теперь есть много вариантов на выбор для всех типов языковых задач. И хотя основным способом взаимодействия с LLM по-прежнему являются API и рудиментарные игровые площадки, я ожидаю, что экосистема инструментов, которая поможет ускорить их широкое внедрение, станет растущим рынком в ближайшем будущем.

Ниже приведена диаграмма, показывающая текущий ландшафт Модели большого языка (LLM) с точки зрения функциональности, предложений и экосистемы инструментов.

TL;DR

Функциональность больших языковых моделей (LLM) можно разделить на пять областей: ответы на знания, перевод, генерация текста, генерация ответов и классификация.
Классификация, пожалуй, наиболее важна для современных потребностей предприятия, а генерация текста — наиболее впечатляющая и универсальная.
Коммерческие предложения и более общие предложения: Cohere, GooseAI, OpenAI и AI21labs. GooseAI в настоящее время фокусируется только на генерации.
Предложениями с открытым исходным кодом являются Sphere, NLLB, Blender Bot, DialoGPT, GODEL и BLOOM.
Инструментальная экосистема все еще находится в зачаточном состоянии со многими областями возможностей.

Функциональность LLM

Classification 
Response Generation 
Text Generation
Translation 
Knowledge Answering

Различные предложения LLM охватывают эти пять областей функциональности в разной степени.

Классификация – это форма контролируемого обучения, при которой текст распределяется по заранее определенным классам. Это связано с кластеризацией, которая представляет собой обучение без учителя, когда семантически похожий текст группируется вместе без каких-либо ранее существовавших классов.

Генерация ответов – это создание потока диалогов из примеров разговоров и применение к нему подхода машинного обучения. Где модель определяет следующий диалог для представления пользователю на основе непосредственной истории разговора и наиболее вероятного следующего диалога.

Генерация текста может быть описана как метавозможность LLM, текст может быть сгенерирован на основе краткого описания с примерными данными или без них. Генерация — это функция, разделяемая практически всеми LLM. Мало того, что генерация может широко использоваться с помощью нескольких данных обучения; с помощью преобразования (быстрого проектирования) данные определенным образом определяют, как будут использоваться данные обучения с несколькими выстрелами.

Перевод — это перевод текста с одного языка на другой. Это делается напрямую без какого-либо промежуточного языка. Об этом подробнее здесь".

Knowledge Answering – это реализация так называемого НЛП с интенсивным использованием знаний (КИ-НЛП), в которой можно получить ответы на вопросы широкой области и общие вопросы, не запрашивая API и не используя традиционную базу знаний. Интенсивное знание НЛП — это не веб-поиск, а автономная база знаний, основанная на семантическом поиске.

Предложения

Cohere, OpenAI, AI21labs, GooseAI, Blender Bot, DialoGPT, GODEL, BLOOM, NLLB, Sphere

Текущее коммерческое предложение состоит из трех крупных игроков (Cohere, AI21labs, OpenAI) и многообещающей небольшой компании GooseAI.

Реализации с открытым исходным кодом, как правило, менее полны и более конкретны в своей реализации.

Инструментальная экосистема

Data-centric Tooling, Playgrounds, Notebooks, Prompt Engineering Tools, Hosting

LLM и игровые площадки

Доступ к LLM осуществляется через API, поэтому базовые инструменты, необходимые для использования их API, — это командная строка, среда разработки или Jupyter Notebooks; Cohere проделывает действительно большую работу по распространению контента, который показывает, как применять LLM к реальным случаям использования с помощью простых сценариев и интеграций.

Поставщики также четко осознают, что для упрощения экспериментирования и внедрения LLM им необходимо предоставить среды без кода в виде игровых площадок, которые предоставляют различные задачи и параметры настройки: это отличная отправная точка для понять, чего можно добиться.

Ниже представлена игровая площадка GooseAI, которая очень похожа на подход других поставщиков LLM.

Эти игровые площадки позволяют вам экспериментировать с быстрым проектированием (с помощью которого вы можете исследовать умопомрачительные возможности генерации текста). Примечание. Я очень удивлен, что мы не наблюдаем (пока) большего взрыва сторонних инструментов / торговых площадок и т. д., ориентированных на разработку подсказок LLM, точно так же, как мы видели вокруг моделей генерации изображений (таких как DALL-E и совсем недавно «Стабильная диффузия»).

Инструменты, ориентированные на данные

Мне не терпится увидеть более глубокую интеграцию LLM в основные рабочие процессы, необходимые для разработки диалогового ИИ и других вариантов использования, таких как аналитика и т. д.; кажется очевидным, что API-интерфейсы LLM и их пространства для встраивания предназначены для раскрытия более мощных возможностей:

Семантический поиск (полезен для изучения неструктурированных данных)
Кластеризация (необходима для определения тем разговоров или намерений)
Извлечение объекта (через генерацию текста)
Классификация (либо с помощью нескольких обучающих примеров, либо с помощью точной настройки реальных моделей)

Я не ожидаю, что корпоративные клиенты будут выполнять этот тип работы в Playgrounds поставщика — вместо этого я ожидаю, что это будут типы функций, встроенных в сторонние инструменты (либо сами диалоговые платформы ИИ, либо специализированные решения, ориентированные на данные), которые будут работать на основе API-интерфейсов LLM.

До сих пор я видел только HumanFirst, интегрирующие LLM в этот тип ориентированного на данные предложения (и, похоже, в настоящее время они поддерживают только Cohere).

🤗ОбнимаетЛицо

Наконец, LLM — это массивные модели, они дороги и сложны в эксплуатации.

Большинство упомянутых здесь технологий (кроме коммерческих LLM) доступны через 🤗HuggingFace.

Вы можете взаимодействовать с моделями, используя Spaces, Model Cards или через размещенные API вывода. Есть варианты обучения, развертывания и хостинга. Очевидно, что требования к хостингу и вычислительным ресурсам будут чрезмерными, и их нелегко будет оправдать.

В заключение

LLM не являются фреймворками для разработки чат-ботов, и их нельзя сравнивать друг с другом. Существуют определенные варианты использования LLM в диалоговом ИИ, и реализации чат-ботов и голосовых ботов определенно могут выиграть от использования LLM.