Модели на основе совпадений и динамическая логистическая регрессия.

Вступление..

В предыдущем блоге мы определили вложения и обсудили одну из популярных нейронных архитектур в Word2Vec. В этом блоге мы кратко обсудим еще одну известную нейронную архитектуру под названием Skip-gram. Мы потратим много времени на изучение других доступных встраиваний, таких как GloVe.

Скип-грамм ..

Модель CBOW обучена предсказывать целевое слово на основе ближайших контекстных слов, модель пропуска граммы обучается предсказывать ближайшие контекстные слова на основе целевого слова. Это полная противоположность модели CBOW. Для контекстного окна c модель пропуска граммы обучается предсказывать слова c вокруг целевого слова.

Нейронная архитектура и обучение скип-грамм очень похожи на CBOW. Поэтому мы ограничимся обсуждением нейронной архитектуры скип-граммы. Целью модели пропуска грамм является максимизация средней логарифмической вероятности:

Недостатки Word2Vec ..

Несмотря на то, что word2vec значительно улучшил и продвинул НЛП, он не лишен недостатков.

  1. Word2vec основан на локальном контексте и, как правило, плохо справляется со сбором статистики корпуса.
  2. Неспособность обрабатывать неизвестные слова или слова вне словарного запаса: если ваша модель не встречала слово раньше, она не будет знать, как его интерпретировать или как построить вектор для него.
  3. Word2Vec основан на локальном контексте и, как правило, плохо фиксирует статистику корпуса.

Модели, основанные на совместной встречаемости ..

Известно, что методы на основе локального контекста, такие как Word2Vec, не могут фиксировать глобальную статистику / структуру корпуса. Существует другая школа мысли, которая предлагает глобальное понимание текста или корпуса, чем локализованный подход.
Эта школа утверждает, что сильную связь между словами можно понять, проанализировав их появление во всех документах в доступном корпусе. Эти методы называются моделями совместной встречаемости, поскольку совместная встречаемость слов может многое рассказать об их семантической близости и значении.
Нам понадобится мера для количественной оценки совпадения двух слов «W1», «W2». Точечная взаимная информация (PMI) - очень популярная мера сопричастности.

p (w) - вероятность появления слова, а p (w1, w2) - совместная вероятность. Высокий PMI указывает на сильную связь между словами.

Методы совместной встречаемости обычно очень многомерны и требуют много места для хранения. Инженеры НЛП обычно используют методы уменьшения размерности для обработки данных большой размерности. Хотя глобальные модели, основанные на совместной вхождении, успешно собирают глобальную статистику из-за огромных требований к хранилищу, эти модели не могут заменить статические вложения Word2Vec.

ПЕРЧАТКИ (ГЛОБАЛЬНЫЕ ВЕКТОРЫ) ..

Помимо word2vec, наиболее широко используемой статической моделью встраивания является сокращение GloVe от Global Vectors. Модель основана на сборе глобальной статистики корпуса. Этот метод сочетает в себе методы совместной встречаемости и методы неглубокого окна. Давайте вкратце разберемся, как создаются векторы GloVe.

Матрица совпадения слов и слов: матрица X, где ячейка Xij представляет собой a, представляет, как часто Wi появляется в контексте Wj в корпусе, или количество раз, когда Wi и Wj взаимодействуют в корпус.
Отношения вероятностей: GloVe основан на отношениях вероятностей из матрицы совпадения слов и слов, это отправная точка. Давайте рассмотрим пример, чтобы понять интуицию, стоящую за концепцией (отношения вероятностей).
Пусть P (k | w) будет вероятностью того, что слово k появляется в контексте слова w . Слова {«вода», «лед»} встречаются вместе, поэтому значение P («лед» / «вода») будет высоким. Также слова {«вода», «пар»} встречаются вместе, поэтому P («пар» / «вода») также будет высоким.
Соотношение: P («лед» / «вода») ÷ P («пар» / «вода»); поскольку числитель и знаменатель имеют высокое значение, соотношение будет близко к 1. Это соотношение = 1 объясняет то, что «вода» (которое также называется пробным словом) очень близко к словам «лед» и « пар », поскольку они происходят вместе. Это соотношение дает нам представление об отношениях между тремя разными словами. Мы будем использовать эту идею для построения векторов.

Перчатки обучение ..

Нам нужно будет построить векторы слов, которые покажут, как каждая пара слов i и j встречается вместе, если они встречаются. GloVe предсказывает окружающие слова путем максимизации вероятности появления контекстного слова при заданном центральном слове с помощью динамической логистической регрессии.

Для каждых «U» и «V» мы будем создавать векторы, используя мягкое ограничение. Мы найдем векторы, минимизируя целевую функцию J,

где V - размер словаря, X - матрица совпадения слов и слов.

f (.) - это весовая функция, имеющая усеченную степенную форму для обработки небольшого количества слов, которые несут меньше информации, чем часто встречающиеся слова. Таким образом, мы придаем меньший вес потерям, соответствующим этим словам с низкой совместимостью в целевой функции.

Вложения GloVe могут выражать семантические и синтаксические отношения посредством сложения и вычитания векторов. GloVe работает даже лучше, чем Word2Vec во многих задачах НЛП, поскольку GloVe также захватывает глобальные зависимости контекста.

Примечание..

Иерархический Softmax: Нормальный слой softmax в CBOW и skip-gram - это пользователь в выходных слоях для прогнозирования слова и вычисления потерь, прогнозирование слова с помощью softmax может быть очень затратным с точки зрения вычислений. шаг, так как объем словарного запаса велик. Иерархический softmax более эффективен с точки зрения вычислений, поскольку он использует представление выходного слоя в виде двоичного дерева.
Отрицательная выборка: Это альтернатива иерархическому softmax, основанному на контрастной оценке шума (NCE). Основная идея состоит в том, что хорошие модели должны уметь отличать данные от шума с помощью логистической регрессии.

Далее: НЛП от нуля к единице: обучение вложениям с использованием Gensim и визуализации (часть 7/30)
Предыдущая: НЛП от нуля к единице: плотные представления, Word2Vec (часть 5 / 30)