Хотя «PM» может означать «pm (время)», это также может означать «премьер-министр».
Я хочу запечатлеть последнее. Я хочу, чтобы лемма «ПМ» вернула «Премьер-министра». Как я могу это сделать с помощью spacy
?
Пример, возвращающий неожиданную лемму:
>>> import spacy
>>> #nlp = spacy.load('en')
>>> nlp = spacy.load('en_core_web_lg')
>>> doc = nlp(u'PM means prime minister')
>>> for word in doc:
... print(word.text, word.lemma_)
...
PM pm
means mean
prime prime
minister minister
Согласно документу https://spacy.io/api/annotation, spacy использует WordNet для лемм;
Лемма - это невыраженная форма слова. Данные по английской лемматизации взяты из WordNet ..
Когда я попытался ввести «pm» в Wordnet, он показывает" Премьер-министр "как одну из лемм.
Что мне здесь не хватает?