Sentence2vec и Word2vec, включающие стоп-слова и именованные объекты

Я работаю над проектом НЛП, в котором участвует предложение2vec. Я предполагаю, что буду использовать предварительно обученные вложения слов для преобразования токенов в векторы, а затем перейти к встраиванию предложений.

Поскольку мое предложение включает в себя такие стоп-слова, как не могу, не буду, не буду и т. Д., Которые NLTK уменьшатся до {ca, wo, are} + нет.
Поэтому я не могу их уменьшить и не хочу удалять их как стоп-слова, поскольку предложения, подобные упомянутым ниже, должны иметь другое встраивание.

Меня зовут Приянк
Меня зовут не Приянк

Еще одно важное сомнение заключается в том, как включить Именованные сущности, такие как имя человека, такого как Марк К. Хогг, в мой вектор предложений.


person Priyank Pathak    schedule 27.02.2018    source источник


Ответы (1)


вы можете удалить те, которые не хотите использовать в качестве стоп-слов из этого список

# Open a file and read it into memory
file = open('words.txt')
text = file.read()

# Apply the stoplist to the text
clean = [word for word in text.split() if word not in stoplist]
person Poorna Prudhvi    schedule 28.02.2018
comment
Как вы предлагаете учетную запись для именованных сущностей, таких как Indian Name, в которой нет вложений word2vec. - person Priyank Pathak; 01.03.2018
comment
Имена также будут рассматриваться как любое другое слово. Если хотите использовать, лучше натренируйте свой собственный word2vec. Если у вас недостаточно данных, лучше определите эти имена с помощью распознавания именованных сущностей и замените эти слова каким-нибудь общим словом. Во всяком случае, они не принесут пользы вашему семантическому совпадению. - person Poorna Prudhvi; 01.03.2018
comment
Если вариант использования похож на тот, который упоминался выше, tfidf работает лучше. - person Poorna Prudhvi; 01.03.2018
comment
Большое спасибо. Позвольте мне попробовать, прокомментирую здесь, если я не смогу разрешить конфликт, связанный с именованными объектами. Еще одно сомнение: для имен, встраивание которых отсутствует в словарном запасе word2vec, следует ли мне удалить их или заменить такими словами, как он / она - person Priyank Pathak; 01.03.2018
comment
Замени их каким-нибудь общим словом, например, именем для всех. - person Poorna Prudhvi; 01.03.2018