Создавайте лучшие рассказы, эссе, ответы и многое другое, используя знания BERT

Область обработки естественного языка сейчас находится в эпоху крупномасштабных предварительно обученных моделей, которые в первую очередь можно попробовать практически для любой новой задачи. Такие модели, как BERT, RoBERTa и ALBERT, настолько велики и были обучены с таким большим объемом данных, что они могут обобщить свои предварительно обученные знания, чтобы понять любые последующие задачи, для которых вы можете их использовать. Но это все, что они могут сделать - понять. Если вы хотите ответить на вопрос, на который нельзя было выбрать несколько вариантов, написать рассказ или эссе или что-нибудь, что требует написания в свободной форме, вам не повезло.

Не поймите меня неправильно: то, что модели, подобные BERT, не могут писать истории, не означает, что не существует других моделей, которые могут. Представляем модель от последовательности к последовательности (Seq2Seq). Когда мы пишем рассказ, мы пишем следующее слово, предложение или даже абзац на основе того, что мы написали до сих пор. Именно для этого и предназначены модели Seq2Seq. Они предсказывают наиболее вероятное следующее слово на основе всех слов, которые они видели до сих пор, моделируя их как временной ряд, то есть порядок предыдущих слов имеет значение.

Модели Seq2Seq существуют уже некоторое время, и существует несколько вариантов, которые используются для задач генерации текста, таких как обобщение и перевод одного языка на другой. Изучение моделей Seq2Seq завершилось разработкой таких моделей, как GPT-2 и GPT-3, которые могут составлять отрывки новостей, рассказы, эссе и даже инвестиционные стратегии - и все это из нескольких контекстных предложений! Однако предупреждаем, что не все эти сгенерированные фрагменты текста имеют большой смысл, когда вы их читаете - распределение вероятностей по словам может увести вас далеко.

Некоторые из основных единиц, используемых при разработке этих моделей, - это рекуррентные нейронные сети (RNN), долгосрочная краткосрочная память (LSTM) и преобразователи (комбинация кодировщика и декодера, который изучает представление слов с помощью чисел), которые также образуют костяк BERT-подобных моделей и GPT-2/3.

Возникает естественный вопрос: если модель Seq2Seq используется в качестве основы как для BERT-подобных моделей, так и для GPT, почему BERT-подобные модели не могут генерировать текст? Это потому, что они обучены с учетом как будущего, так и прошлого контекста. Во время обучения этим моделям вводятся предложения с несколькими пропущенными словами, и ожидается, что они будут предсказывать эти пропущенные слова. Чтобы предсказать пропущенное слово, им нужно знать, что означают слова до и после. В этом духе была проделана работа по попытке заставить BERT-подобные модели работать для генерации текста, такие как CT-NMT Янга и др.

Другой ход мысли о BERT-подобных моделях для генерации текста основан на следующем вопросе: может ли знание будущих слов, которое эти модели получают в результате обучения, помочь моделям Seq2Seq формулировать более связные предложения вместо того, чтобы просто предсказывать следующее слово? Это именно та проблема, которую исследователи из Microsoft Dynamics 365 AI Research пытаются решить с помощью Distill-BERT.

Они используют дистилляцию знаний для передачи знаний от модели BERT учителя к модели Seq2Seq ученика, сохраняя при этом исходную цель Seq2Seq - предсказание наиболее вероятного следующего слова. Таким образом, студенческая модель сохраняет лучшее из обоих миров. Более формальное объяснение этого метода показано в приведенных ниже уравнениях.

Здесь (yt) - это список вероятностей, предсказанных BERT для всех слов, релевантных в позиции t в сгенерированном тексте.

После обучения модели ученика модель BERT учителя больше не нужна, и для генерации текста используется только модель ученика. Это означает, что во время генерации для Distill-BERT не требуются дополнительные ресурсы. Эта техника также не зависит от учителя. Это означает, что любую BERT-подобную модель, такую ​​как RoBERTa, ALBERT, BERT и другие, можно использовать для передачи знаний учащемуся.

Чтобы доказать, что их метод работает, исследователи использовали знания BERT для обучения студентов-трансформеров и использовали их для перевода с немецкого на английский, перевода с английского на немецкий и обобщения. Студенческий трансформатор демонстрирует значительное улучшение по сравнению с обычным трансформатором без BERT и даже способен обеспечить высочайшее качество перевода с немецкого на английский.

Они также применяют эти знания к RNN учащегося, показывая, что методика не зависит от учащегося. Этот RNN применяется для перевода с английского на вьетнамский язык и также показывает улучшения.

Вот ссылка на статью, если вы хотите узнать больше о Distill-BERT, ссылка на код, если вы хотите попробовать обучить свою собственную модель Seq2Seq, и нажмите здесь, чтобы увидеть больше наших публикаций и других Работа.

Ссылки

  1. Рэдфорд, Алек, Джеффри Ву, Ревон Чайлд, Дэвид Луан, Дарио Амодеи и Илья Суцкевер, языковые модели - это многозадачные ученики без учителя. Блог OpenAI 1, вып. 8 (2019): 9.
  2. Браун, Том Б., Бенджамин Манн, Ник Райдер, Мелани Суббиа, Джаред Каплан, Прафулла Даривал, Арвинд Нилакантан и др., Языковые модели малоинтересны, препринт arXiv arXiv: 2005.14165 (2020).
  3. Кристиан Бусилу, Рич Каруана и Александру Никулеску-Мизил, Сжатие модели (2006), In KDD.
  4. Цзячэн Ян, Минсюань Ван, Хао Чжоу, Чэнци Чжао, Юн Ю, Вэйнань Чжан и Лэй Ли, На пути к максимально эффективному использованию нейронного машинного перевода (2019), препринт arXiv arXiv: 1908.05672
  5. Чен, Йен-Чун, Чжэ Гань, Ю Чэн, Цзинчжоу Лю и Цзинцзин Лю, Извлечение знаний, полученных с помощью BERT для создания текста, В материалах 58-го ежегодного собрания Ассоциации вычислительной техники Языкознание, стр. 7893–7905. 2020.