Странный результат лемматизации в пакете r ,texttem

Я хотел бы получить лемму «нырнуть» от всех возможных форм слова с помощью пакета texttem в R.

Но когда я использовал пакетtexttem в r, основная форма стала очень странным результатом.

library(textstem)
words<-c("dived", "diving", "dive")

lemmatize_strings(words, dictionary = lexicon::hash_lemmas)

[1] "dive" "dive" "diva"

Здесь я не хочу "нырять" как результат слова "нырять", вместо этого мне нужно лемматизировать слово "нырять" в "нырять", чтобы его можно было считать тем же словом с другими формами "нырял", "подводное плавание". Так должно быть, как показано ниже.

[1] "dive" "dive" "dive"

Я нашел эту ссылку (stemDocment в tm package не работает со словом в прошедшем времени), но в моем случае он может оказаться бесполезным, поскольку мне придется обработать более 80 000 отзывов, и я, скорее всего, столкнусь с той же проблемой с разными словами.

Я использую lemmatize_strings для набора данных, который у меня есть, но он дает точно такой же результат (хотя это немного очевидно). Кто-нибудь может мне помочь, пожалуйста!

Заранее большое спасибо!

r lemmatization lexicon

Kenpy 17.05.2018 источник

comment

Отрегулировать стол? lemmas <- lexicon::hash_lemmas[token=="dive",lemma:="dive"];lemmatize_strings(words, dictionary = lemmas). - lukeA 18.05.2018

comment

@lukeA, отлично поработало таким образом проблема решена! Большое спасибо! - Kenpy 18.05.2018

comment

Но давайте сделаем это 'lemmata` вместо lemmas;) - lukeA 18.05.2018

Странный результат лемматизации в пакете r ,texttem

Похожие вопросы