Должен ли я использовать word2vec для встраивания слов, включая данные тестирования?

Я новичок в НЛП, и я пытаюсь выполнить работу по классификации текстов. Прежде чем приступить к работе, я знаю, что мы должны выполнить встраивание слов. Мой вопрос: должен ли я выполнять работу по встраиванию слов только в обучающие данные (чтобы тестовые данные получали вектор только из предварительно обученной vec-модели обучающих данных) или как в обучающих данных, так и в тестовых данных?


person Nils Cao    schedule 22.05.2016    source источник


Ответы (1)


Это очень важный вопрос. В сообществе NN люди обычно используют порог (то есть частоту ‹ = 2) в обучающем наборе и заменяют все слова, которые встречаются меньше этого порога, токеном UNK. Затем во время теста, если есть слово, которое не соответствует фактическому слову тренировочного набора, представление UNK заменит его.

person user3639557    schedule 23.05.2016