Что такое встраивание слов?
Внедрение Word — это термин, используемый для описания числового представления текста.
В предыдущей статье мы изучили некоторые основные методы векторизации текста, такие как Bag of Words, TF-IDF и т. д. Теперь давайте рассмотрим некоторые более продвинутые методы представления текста.
Создание разреженного представления с использованием TF-IDF и других основных методов векторизации не имеет особого смысла, поскольку они не охватывают семантику и отношения слов.
Следовательно, нам нужно создать способ захвата семантики. Мы хотим представлять слова таким образом, чтобы они улавливали их значение так, как это делают люди. Не точное значение слова, а контекстное.
Word2Vec:
Word2Vec — это метод, введенный для выявления сходства между словами в тексте. Это следует за следующими шагами:
- Изучите вектор встраивания для каждого слова.
- Построить вероятностную модель.
- Используйте скалярный продукт для измерения сходства.
У нас есть 2 варианта Word2Vec:
Модель с пропуском грамма
Модель Skip-gram пытается предсказать слова исходного контекста (окружающие слова) по заданному слову (центральное слово). Принимая во внимание наше простое предложение ниже, «мужчина любит своего сына». Цель модели пропуска грамм — предсказать контекст по целевому слову, модель пытается предсказать каждое контекстное слово из его целевого слова. Следовательно, задача состоит в том, чтобы предсказать контекст [мужчина, его, сын] с учетом целевого слова 'любит'. Таким образом, модель пытается предсказать слова context_window на основе target_word.
Предположения:
Слово может быть использовано для генерации окружающих его слов.
Учитывая центральное слово, контекстные слова генерируются независимо.

Для каждого центрального слова (от t=1, .., T) предсказать контекстные слова внутри окна.
Цель: максимизировать вероятность контекстных слов для заданных центральных слов.
Непрерывный мешок слов (CBOW)
Архитектура модели CBOW пытается предсказать текущее целевое слово (центральное слово) на основе слов исходного контекста (окружающих слов). Учитывая простое предложение «мужчина любит своего сына», это могут быть пары (context_window, target_word) где, если мы рассмотрим контекстное окно размера 2, у нас будут такие примеры, как ([loves], the, man, his, son). Таким образом, модель пытается предсказать target_word на основе context_window слов.

Когда использовать какой метод?
Пропустить грамм:
Если у вас мало обучающих данных.
CBOW:
При обучении времени должно быть меньше.