Я работаю над проектом НЛП, в котором участвует предложение2vec. Я предполагаю, что буду использовать предварительно обученные вложения слов для преобразования токенов в векторы, а затем перейти к встраиванию предложений.
Поскольку мое предложение включает в себя такие стоп-слова, как не могу, не буду, не буду и т. Д., Которые NLTK уменьшатся до {ca, wo, are} + нет.
Поэтому я не могу их уменьшить и не хочу удалять их как стоп-слова, поскольку предложения, подобные упомянутым ниже, должны иметь другое встраивание.
Меня зовут Приянк
Меня зовут не Приянк
Еще одно важное сомнение заключается в том, как включить Именованные сущности, такие как имя человека, такого как Марк К. Хогг, в мой вектор предложений.