Подходят ли векторы Word2Vec и Glove для распознавания сущностей?

Я работаю над распознаванием именованных сущностей. Я оценивал библиотеки, такие как MITIE, Stanford NER, NLTK NER и т. Д., Которые построены на традиционных методах nlp. Я также посмотрел на модели глубокого обучения, такие как векторы word2vec и Glove, для представления слов в векторном пространстве, они интересны, поскольку предоставляют информацию о контексте слова, но специально для задачи NER, я думаю, это не очень подходит. Поскольку все эти векторные модели создают словарь и соответствующее векторное представление. Если какое-либо слово отсутствует в словарном запасе, оно не будет распознано. Предполагая, что весьма вероятно, что именованный объект отсутствует, поскольку он не привязан к языку. Это может быть что угодно. Поэтому, если какой-либо метод глубокого обучения должен быть полезен в таких случаях, это те, которые в большей степени зависят от структуры предложения за счет использования стандартного английского словаря, то есть игнорирования именованных полей. Есть ли такая модель или метод? Будет ли CNN или RNN ответом на это?


person rusty    schedule 25.08.2015    source источник


Ответы (1)


Я думаю, вы имеете в виду тексты на определенном языке, но названные объекты в этом тексте могут содержать разные имена (например, с других языков)?

Первое, что приходит мне в голову, - это некоторые методы обучения с полу-контролируемым обучением, которые периодически обновляются, чтобы отразить новый словарный запас.

Например, вы можете захотеть использовать модель word2vec для обучения входящих данных и сравнить вектор слов возможных сетевых элементов с существующими сетевыми элементами. Их косинусное расстояние должно быть близким.

person Yibin Lin    schedule 12.09.2015
comment
Я бы не стал полагаться на векторы слов для NER. Методы контролируемого обучения с хорошей инженерией функций дают хорошие результаты. Не уверен, что ваш вариант использования. - person roopalgarg; 15.12.2015