tokens = [The, wage, productivity, nexus, the, process, of, development,....]
Я пытаюсь преобразовать список токенов в их лемматизированную форму, используя Lemmatizer SpaCy. Вот документация, которую я использую.
Мой код:
from spacy.lemmatizer import Lemmatizer
from spacy.lookups import Lookups
lookups = Lookups()
lookups.add_table("lemma_rules")
lemmatizer = Lemmatizer(lookups)
lemmas = []
for tokens in filtered_tokens:
lemmas.append(lemmatizer(tokens))
сообщение об ошибке
TypeError Traceback (most recent call last)
in
7 lemmas = []
8 for tokens in filtered_tokens:
----> 9 lemmas.append(lemmatizer(tokens))
TypeError: __call__() missing 1 required positional argument: 'univ_pos'
В этом обсуждении я понял, как работает Lemmatizer SpaCy, и понял его в теории. Однако я не уверен, как я могу реализовать это.
Как я могу узнать univ_pos
для своих токенов?
.lemma_
. Если вы не можете проанализировать полное предложение, вам придется применить теги вручную. Если ваши токены являются spaCyTokens
, вы должны просто вызвать.lemma_
, чтобы получить лемму. - person bivouac0   schedule 17.02.2020