Тихий сдвиг в экосистеме НЛП

Он уже в движении…

суть

Статья, опубликованная несколько дней назад (15 июня 2022 г.), предлагает ключевое представление о впечатляющих возможностях решения задач, которые дает недавний поток языковых моделей с более чем миллиардом параметров.

Большие языковые модели проявляют способность решать конкретные задачи при соблюдении двух условий — размер параметра модели превышает 100 миллиардов и объем обучения превышает 10²³ FLOPS. Ниже этих порогов способность решать эти конкретные задачи практически отсутствует.

В то время как другая статья, опубликованная ранее в этом году, подтвердила то, что мы наблюдали в отношении производительности больших языковых моделей, то есть производительность языкового моделирования улучшается по мере увеличения размера модели, объема данных и вычислительного бюджета, более свежий вывод от 15 июня, что Размер модели (и FLOPS обучения) необходим для появленияопределенных возможностей решения задач, может оказать влияние на всю экосистему НЛП, которая уже переживает переход к использованию этих больших языковых моделей.

Практик НЛП должен научиться использовать эти LLM (большие языковые модели)для решения задач НЛП. Например, (1) как создавать подсказки, обеспечивающие оптимальную производительность задачи, (2) каков оптимальный размер набора данных для обучения (часто сотни, в отличие от тысяч для тонкой настройки традиционной модели BERT)для достижения желаемого уровня производительности, (3) какая модель является оптимальной для точной настройки -tune, учитывая, что определенные возможности решения задач, такие как классификация предложений, могут обеспечить желаемую производительность модели даже в небольших моделях, которые находятся в диапазоне сотен миллионов параметров (выбор размера модели часто является техническим компромиссом между производительностью модели и стоимостью). /время как для обучения, так и для логического вывода)(4)как подготовить данные и настроить эти модели (обновления весов моделей возможно через API) –необходимый шаг, учитывая неэффективность и финансовые последствия использования обучения с нулевым или несколькими шагами для производственного использования, (5) как развернуть эти модели в рабочей среде (опять же, вероятно, через службу API) и стоимость развертывания (поставщики API взимают плату на основе количества токенов. Альтернативный выбор — размещение точно настроенной модели для логического вывода, даже если она доступна, может составлять десятки тысяч ежегодно).
Исследователям НЛП теперь приходится сталкиваться с тем фактом, что сама способность проводить исследования в области НЛП может быть сосредоточена в очень немногих коммерческих организациях или хорошо финансируемых учебных заведениях, которые могут позволить себе обучение таких моделей, учитывая стоимость для обучения этих больших моделей исчисляются миллионы — значительно выше, чем типичные суммы грантов, доступных для исследований.
Компании НЛП, чьим хлебом насущным является решение задач НЛП, вынуждены использовать возможности этих больших языковых моделей, иначе они рискуют стать неактуальными. Возможно, неудивительно, что даже относительно новый участник НЛП, такой как HuggingFace, несмотря на его впечатляющее накопление более 50 тысяч языковых и графических моделей за короткое время, вступает в борьбу с обучением большим языковым моделям — 176 миллиардов параметров обучение моделей уже ведется. с 26 марта» на 384 GPU. Кроме того, HuggingFace содержит несколько миллиардов моделей параметров для логического вывода, таких как GPT-2, GPT-J-6B, GPT-Neox-20B(Демонстрация пространств GPT-Neox-20B размещена на HuggingFace с отказом от ответственности за случайные ошибочные вывод из-за проблем с размещением такой большой модели для открытого публичного использования). Некоторые стартапы уже начали использовать возможности больших языковых моделей, предлагая NLP как услугу API. Чтобы продемонстрировать свое новое предложение, они выставляют публике игровые площадки для опробования этих больших моделей, поскольку в большинстве случаев их невозможно загрузить по запросу в Google Colab или на одном компьютере с графическим процессором. Например, Co:here только что запустила игровую площадку, похожую на игровую площадку OpenAI, где по крайней мере некоторые из их моделей выглядят как большие языковые модели, обученные авторегрессивно (я обратился к размерам моделей на их игровой площадке для этот пост, и они ответили качественным/субъективным сравнением. Их модель Xlarge сравнима с GPT-3 Da Vinci 175B, а их средняя модель мощнее, чем Babbage 1.3B. AI21 labs, другой стартап также предлагает НЛП как услугу. Они отображают размеры своих моделей (7B,17B,178B- Jurassic 1), и мы можем взаимодействовать с ними на их игровой площадке. GooseAI теперь конкурирует с OpenAI, предлагая более дешевый сервис API, используя открытые предварительно обученные модели из EleutherAI (GPT-Neox-20B). NLP Cloud — это еще один сервис, похожий на GooseAPI, который позиционирует себя как лучшую альтернативу Huggingface или OpenAI с точки зрения цены, производительности и конфиденциальности данных. Он использует модели LLM EleutherAI (в дополнение к более мелким общедоступным LM) для предоставления услуги API.
Стартапы в области аппаратного обеспечения, такие как Cerebras и Sambanova, имеют хорошие возможности воспользоваться этой золотой лихорадкой для обучения больших языковых моделей с помощью Nvidia (A100s) — единственный доступный выбор в настоящее время. Graphcore только что анонсировала машину, выпуск которой намечен на 2024 год и которая может обучать модели с 500 триллионами параметров. В дополнение к аппаратным решениям такие стартапы, как HPC-AI Tech, пытаются предложить программное решение (Colossal-AI) для эффективного обучения и тонкой настройки больших моделей.
Поставщики облачных вычислений также имеют возможность воспользоваться этим преимуществом. Например, GPT-Neox с параметрами веса модели, целевыми для увеличения до 175 Б, обучается на вычислениях, предоставляемых Coreweave ( на графических процессорах A100.Модель параметров GPT-Neox 20B обучена на 96 A100). Поставщики облачных вычислений, такие как Cirrascale, в настоящее время предлагают машины Cerebras и Sambanovoa в дополнение к A100 для обучения и вывода.
За пределами экосистемы НЛП. Наконец, большие языковые модели оказывают влияние за пределами экосистемы НЛП. Прогресс в мультимодальных исследованиях использует языковые модели на пути к моделям общего назначения, охватывающим модальности — либо путем прямого использования больших языковых моделей в замороженном виде для представления текста (например, языковая модель Parti 22 June 2022 with 4B. Flamingo, апрель 2022 г. с языковой моделью параметров 70 млрд, Imagen, май 2022 г., с использованием языковой модели параметров T5-XXL 4,6 млрд) или в качестве кодировщиков, которые являются частью гибридной системы текста/изображения модель в MetaLM 13 июня 2022 г., параметр 2.8B Hybrid Image/Text Encoder в Unified-IO 17 июня 2022 г.).

Теперь для тех из нас, кто привык к тонкой настройке предварительно обученных языковых моделей, таких как BERT, с небольшими архитектурными дополнениями (линейный слой, наложенный сверху) для решения конкретных задач различения, таких как классификация документов, предложений или токенов, естественно возникает вопрос…

Как генеративная модель может быть решением для всех задач НЛП?

Возможности генеративных моделей, выходящие за рамки возможностей связного повествования, были продемонстрированы GPT-2 еще в 2019 году. Если мы создадим задачу НЛП как задачу завершения предложения, то эта задача станет именно тем, чему модель учится во время обучения — завершать предложение по одному слову за раз (авторегрессионное моделирование). Другими словами, мы могли бы использовать генеративную способность авторегрессионной модели для решения дискриминационных задач, таких как классификация (как на уровне документа, предложения или токена), если мы сформулируем проблему как задачу завершения предложения — простая идея, которая теперь имеет собственное название — быстрый дизайн или грунтовка. Мы рассмотрим примеры этого в следующем разделе ниже.

Этот подход показал себя многообещающим в GPT-2, но из-за ограниченного размера модели (1,5 Б), а также по ряду других причин его возможности решения задач не могли сравниться с производительностью точно настроенной модели. как БЕРТ. GPT-3 с параметрами 175 B, обученными на 300 миллиардах токенов (и с несколькими другими улучшениями) преодолел этот недостаток. Мало того, что возможность обучения в контексте модели (способность распознавать задачу на примерах во время вывода без обновлений веса модели) с нулем, одним или несколькими примерами значительно улучшилась, она даже продемонстрировал способность решать задачи на рассуждения в некоторой ограниченной степени, подталкиваемые некоторыми подсказками, такими как Давайте подумаем шаг за шагом (в документе от 9 июня 2022 г. это тестируется на модели параметров GPT-3 и PALM 540B, выпущенной в апреле 2022 г. Другой Вариантом этого является контекстный пример, предлагающий объяснение в форме предложения, ведущее к результату) и подходы, которые улучшают последовательность мыслей путем голосования большинством голосов.

Однако, с точки зрения развертывания, точная настройка авторегрессионной модели на обучающем наборе для конкретной задачи, так же, как мы делаем точную настройку BERT (за исключением того, что для обучения модели BERT требуется менее половины данных). ), является предпочтительным подходом, учитывая накладные расходы на обучение с несколькими выстрелами во время вывода. Небольшое обучение требует, чтобы каждому входу предшествовали примеры обучения в контексте. Это увеличивает как время вывода, так и стоимость — измерение — это количество токенов в большинстве сервисов API.

Таким образом, возможная последовательность шагов для точной настройки авторегрессии для решения задач различения(и генеративных) состоит в следующем:

сначала создайте различительную проблему как задачу завершения предложения (прайминг)
затем быстро итерируйте различные подсказки-кандидаты, тестируя с помощью обучения с несколькими выстрелами и выбирая лучших кандидатов для точной настройки.
Для некоторых задач может потребоваться дополнительная постобработка выходных данных для удаления завершающих дополнений выходных данных модели. Добавление последовательности остановок между входными примерами в примерах контекстного обучения, предоставляемых модели, делает эту постобработку тривиальной, поскольку модель также будет выводить последовательность остановок (обычно используемая альтернатива — это выбор топ-k токенов).

Учитывая, что объем данных, которые необходимо пометить для точной настройки, составляет не более нескольких тысяч, если не сотен для большинства задач, бремя пометки уменьшается за счет быстрого проектирования. Таким образом, можно было бы начать тонкую настройку авторегрессионной модели с небольшим начальным набором обучающих данных и продолжать точную настройку поэтапно с дополнительными данными до тех пор, пока производительность модели не достигнет плато или не упадет.

Обратите внимание: хотя появление определенных возможностей происходит только после 100b параметров, на самом деле это не так двоично, как утверждается на бумаге.

Некоторые возможности появляются при меньших размерах моделей — в несколько миллиардов или даже меньше. Например, в газете Parti от 22 июня 2022 года модель демонстрирует способность произносить слова в сгенерированном тексте на изображении с параметрами 20B.

Для некоторых задач небольшие модели обладают определенной способностью, и производительность этой возможности продолжает улучшаться с увеличением размера модели.
В некоторых случаях при наличии двух моделей разного размера при увеличении размера набора данных поезда производительность может достигать пика для большой модели (например, GPT3–175B), но может продолжать расти для меньшей модели. модель (скажем, с параметрами 6B), делая меньшую модель более подходящей для нашей задачи.

Таким образом, один подход, который следует рассмотреть, состоит в том, чтобы выбрать группу моделей разного размера после того, как мы сойдемся на одной или нескольких подсказках (что мы можем сделать с помощью нескольких итераций обучения), а затем обучить все модели на dataset, увеличивая размер набора данных, пока мы не достигнем желаемой производительности. Затем мы выбираем модель, которая соответствует нашему компромиссу между стоимостью бюджета логического вывода, производительностью и т. д.

Однако недостатком тонкой настройки модели по подсказкам является создание копии модели. Это означает, что нам потребуется большая модель для каждой задачи при развертывании. Напротив, в контекстном обучении не требуется создавать копию, несмотря на недостатки, упомянутые ранее. Несколько подходов лежат между этими двумя крайностями от 0% обновления модели (в контексте обучения) до 100% обновления модели (тонкая настройка), например, настройка префикса (обновление 2%), настройка адаптера (обновление 2–4%), настройка верхних k-слоев, быстрая настройка, p-настройка, быстрая настройка, зависящая от ввода и т. д. Эти подходы предназначены для больших авторегрессионных моделей, демонстрирующих обучение в контексте. Также были попытки эмулировать функцию завершения подсказок путем точной настройки меньших моделей (‹ 1B) с использованием шаблонов подсказок — таких методов, как PET, iPET и ADAPET, которые не обсуждается в этом посте, поскольку контекстное обучение практически отсутствует в этих небольших моделях (назвать способность BERT прогнозировать маску заполнения, которая является не чем иным, как прямым следствием потери MLM, в контексте обучения, было бы преувеличением). ).

Тонкая настройка авторегрессионной модели, несмотря на недостаток создания копии, возможно, имеет преимущество перед тонкой настройкой модели BERT в том, что функция потерь одинакова (предсказание следующего токена) для обоих предварительных обучение и тонкая настройка авторегрессионной модели. Напротив, для таких моделей, как BERT, это не так: они не только имеют архитектурные дополнения, такие как дополнительный слой(веса которого заново изучаются во время тонкой настройки), но и функции потерь во время модели, относящейся к и тонкая настройка. Это отчасти может объяснить причину того, что предварительно обученные модели МЛМ, несмотря на отсутствие у них генеративной способности, не могут естественно обучаться в контексте, как авторегрессионные модели(GPT), а также тот факт, что модели МЛМ не могут быть настроены (прямо из коробки без дополнительных методов, таких как PET, iPET и ADAPET) с несколькими примерами, такими как авторегрессионная модель.

Примеры решения задач НЛП с использованием генеративной модели типа GPT-3

Задачи НЛП можно разделить на три большие категории.

Последовательность → последовательность. Примерами этого являются создание контента (сообщения в блоге, копии электронной почты), абстрактное обобщение, перевод, вопросы и ответы и т. д.
Последовательность → токен. Это может быть классификация документа или предложения. Извлечение отношения может быть создано как задача классификации, где ввод подсказки кодирует токены операнда отношения вместе с классифицируемым предложением — завершение подсказки будет логическим токеном да/нет. Это также можно рассматривать как задачу последовательности → последовательности, когда входная последовательность не меньше выходной последовательности.
Задачи, использующие встраивания. Сходство предложений, семантический поиск.

Некоторые традиционные задачи NLP, такие как тегирование POS или NER, которые можно рассматривать как последовательность → последовательность, могут не иметь смысла напрямую сопоставляться с генеративной задачей, где каждый токен на входе имеет соответствующий выходной тег ( хотя в принципе можно было бы это сделать). Вместо этого можно использовать авторегрессионную модель, чтобы просто вывести существительные или сущности в предложении, как показано ниже.

Ниже проиллюстрированы примеры обучения с нулевым/несколько выстрелов (без обновлений веса) из игровых площадок, представленных OpenAI, AI21, Co:here и GooseAPI. Все четыре можно бесплатно протестировать. GooseAPI открыт для использования без регистрации, тогда как остальные три требуют регистрации. Кроме того, существует несколько других языковых моделей с миллиардами параметров, таких как PaLM (540B), Megatron-Turing NLG (530B), Gopher (280B), OPT-175B (см. ссылку на список крупных моделей). Однако у них пока нет детских площадок с открытым доступом.

Хотя примеры, показанные ниже, были выбраны, чтобы проиллюстрировать, как различные задачи НЛП могут быть решены путем создания подходящих подсказок, уровень сложности в некоторых примерах, особенно с обучением с нулевым выстрелом/несколько выстрелов, был намеренно иллюстрирован, чтобы проиллюстрировать, как модели справляются с такими случаями. . Тонкая настройка с сотнями образцов, вероятно, снизит уровень сложности с точки зрения модели и улучшит производительность. Это также может сгладить различия в характеристиках моделей, которые мы видим ниже в настройках «нулевой выстрел/несколько выстрелов».

Последовательность → последовательность задач

Обобщение

Создание электронной почты на основе ввода команды

Идентификация имен существительных (функция POS-тегов)

Идентификация именованных сущностей (функциональность NER)

Извлечение отношения (с информацией об объекте)

Извлечение тем из документов

Разрешение базовой ссылки

Последовательность → задачи токена.

Классификация предложений (где примеры обучения в контексте не перечисляют все категории классификации — языковая модель выводит это из контекста)

Классификация предложений (где в примерах контекстного обучения перечислены все классы)

Различные варианты использования, продемонстрированные OpenAI, AI21, Co:here и GooseAI

В таблице ниже показано общее свойство всех открытых игровых площадок.

большинство задач являются вариантами использования конечным пользователем, в отличие от общих задач НЛП. Например, OpenAI предоставляет одну и ту же базовую задачу НЛП в разных вариантах использования — извлечение кода аэропорта, извлечение контактной информации, традиционно считающееся извлечением информации. Создатель рецепта, набросок эссе и т. д. традиционно называют генеративными задачами.
Задачи NLP, которые продемонстрировала бы традиционная компания NLP, такие как распознавание именованных сущностей, извлечение отношений, анализатор зависимостей, блокировщик и т. Д., Отсутствуют. Вместо этого они представлены неявно как конкретные задачи варианта использования. Отчасти это связано с тем, что, как упоминалось ранее, сопоставление этих задач НЛП один к одному может быть не оптимальным способом использования этих языковых моделей, хотя в принципе можно (например, генерировать теги BIO или POS) . Кроме того, LLM могут объединять несколько шагов в традиционном конвейере НЛП и напрямую доставлять результат — явное преимущество по сравнению с традиционным подходом к решению задач.

Это еще раз подтверждает тот факт, что практик должен разрабатывать решения для задачи с новым мышлением при использовании LLM — традиционный многоэтапный конвейер может быть решен всего за один шаг с помощью LLM. Затем мы просто разрабатываем правильное начало и завершение задачи.

Задачи, использующие вложения

Задачи, использующие встраивания, могут быть семантическим поиском или сходством предложений. Сравнение встраивания здесь не проводится, поскольку на данный момент только OpenAI и Co:here предоставляют интерфейсы встраивания. Был проведен анализ внедрений OpenAI, сделанных ранее в этом году, когда он находился в бета-режиме, когда производительность вложений была ниже, чем у стандартных известных подходов к встраиванию с меньшими моделями. Вложение предложения — это, по сути, вложение специального токена, добавленного в конец предложения. Последовательные пары предложений в документах считаются положительными парами в контрастном подходе к обучению встраиванию предложений.

Использование LLM для устранения ключевого недостатка LLM — новый подход

Несмотря на впечатляющие возможности LLM для решения широкого круга задач, это не надежный вариант развертывания в производственной среде для определенных случаев использования, учитывая частоту ошибок. Например, хотя мы видели в Интернете примеры LLM, решающих как простые, так и сложные математические задачи, даже с промежуточными шагами, показывающими, как они пришли к ответу, низкая производительность LLM при простом вычислении (показано ниже), которое старый добрый символьный калькулятор может надежно решить, подчеркивает ненадежность использования LLM для такой простой арифметической задачи — все LLM, используемые в приведенных выше случаях использования NLP, терпят неудачу при простом вычислении, показанном ниже (подходы к повышению производительности языка модели логических задач были опубликованы после публикации этого поста, например Минерва — доработанная модель PaLM (540B) по математическому содержанию).

A121 предлагает одно решение этой проблемы, объединяя лучшее из обоих миров — используйте мощь надежных экспертных моделей (это могут быть нейронные сети или модули других сетей) с мощью использования LLM. Они рассматривают вариант использования интерфейса поиска, который может ответить на любой вопрос. Система использует LLM в качестве внешнего интерфейса для приема пользовательского ввода и направления его в нужный экспертный модуль, если он есть. Если экспертный модуль не существует, пользовательский ввод направляется в LLM в качестве запасного варианта. Затем результат этого шага снова передается в LLM для построения ответа в форме предложения.

Чтобы внедрить такую систему, которая потенциально включает несколько LLM, они предлагают альтернативы, чтобы избежать нескольких точно настроенных копий LLM, которые служат экспертами в определенных областях. Основная идея состоит в том, чтобы использовать один замороженный LLM для нескольких задач, используя методы, изложенные в этой статье.

Mixture-of-Experts — многообещающий подход к решению проблем увеличения размера модели.

Суть подхода AI21, заключающегося в использовании экспертных модулей для решения задачи, по духу аналогична подходу с использованием смеси экспертов. Идея использования смеси экспертов(MoE) не нова — она восходит к работе в 2017 году и выпуску последующих моделей типа Switch в январе 2021 года (до триллиона параметров) . В отличие от моделей глубокого обучения, которые повторно используют все параметры модели для каждого входа, модели MoE выборочно используют часть параметров на основе входящего примера с механизмом маршрутизации. Это приводит к редко активируемой модели с потенциальным общим числом параметров в триллионы, но с фиксированными вычислительными затратами. Более поздняя работа, такая как Task-MOE (сентябрь 2021 г.), позволяет извлекать готовые к использованию развертываемые подсети из больших разреженных моделей. Это многообещающая работа, которая решает проблему развертывания этих больших моделей. GLaM (декабрь 2021 г.) – это триллионный параметр, который решает проблему масштабирования больших моделей с помощью идеи объединения экспертов. В частности, эта модель с триллионом параметров примерно в 7 раз больше, чем параметр GPT-3 (175B), но потребляет 1/3 энергии, используемой для обучения GPT-3, и половину вычислительных провалов для вывода с лучшей производительностью в целом по сравнению с GPT-3. . Для зрения тоже был применен подход Смесь экспертов (V-MoE). Несмотря на то, что V-MoE является самой большой моделью зрения на сегодняшний день (15B), она соответствует производительности современных моделей машинного зрения для распознавания с половиной вычислений во время вывода. Совсем недавно, LIMoE (июнь 2022 г.), разреженная модель MOE продемонстрировала возможность мультимодального обучения (текст и изображения) — все рассмотренные выше модели MOE являются унимодальными. Эта модель содержит 5,6 миллиарда параметров, но применяет только 675 миллионов параметров на токен.

Последние мысли

Использование больших языковых моделей для задач все еще находится в зачаточном состоянии, и еще предстоит увидеть, какие дополнительные возможности появятся по мере увеличения размера модели. Вся экосистема НЛП уже претерпевает изменения с появлением нового оборудования, программного обеспечения и облачных стартапов, стремящихся воспользоваться преимуществами.

Однако увеличение размера модели в значительной степени обусловлено использованием трансформаторов, которые стали общей базовой архитектурой почти для всех модальностей. Хотя с увеличением параметров модели появляются новые возможности, недавняя работа(29 марта 2022 г.) также показала, что эффективные с точки зрения вычислений модели могут работать так же хорошо, как и их более крупные аналоги, учитывая, что большинство крупных моделей недотренированы из-за простого масштабирования параметров, но сохранения постоянных данных обучения. В документе утверждается, что модель всего с 70B параметрами Chinchilla превосходит свои более крупные аналоги GPT-3(175B), Jurassic-1 (178B), Gopher (280B), Megatron-Turing NLG (530B), на широкий спектр последующих задач оценки. Кроме того, подход с участием нескольких экспертов решает как проблемы обучения больших моделей (путем обновления только части модели для каждого входа), так и проблему развертывания, позволяя выделить меньшую подсеть для вывод. Эти направления работы, а также инновации в малом модельном пространстве потенциально могут привести к созданию эффективных вычислительных моделей и даже более новых архитектур, которые не обязательно будут такими же большими, как текущие модели для появления и роста возможностей решения задач.

Наконец, растет число ожиданий или заблуждений (основанных на чьей-либо точке зрения), в основном вызванных недавним успехом больших языковых моделей,

мы могли бы решать задачи общего интеллекта, предсказывая токены в последовательности, без какого-либо физического опыта взаимодействия с миром.

Существует контрапункт этой точки зрения, который исследует недостатки ожидания того, что большие языковые модели являются решением для решения проблем искусственного общего интеллекта (AGI). Это отражено в недавнем документе с изложением позиции (27 июня 2022 г.), в котором не только излагаются проблемы, которые нам необходимо решить, чтобы приблизиться к ОИИ, но и правдоподобные архитектурные элементы, необходимые для достижения этой цели. . Однако этот альтернативный взгляд не исключает того, что модель, которая приближает нас к общему интеллекту, может быть большой — просто это вряд ли будет большая языковая модель, которая есть у нас сейчас, но с большим количеством параметров.