Рассмотрим следующую строку:
txt <- ("Viele Dank für das Feedback + die Verbesserungsvorschläge! :) http://testurl.com/5lhk5p #Greenwashing #PR #Vattenfal")
Я создаю dfm (Создайте матрицу функций документа) и предварительно обрабатываю строку следующим образом:
txt_corp <- quanteda::corpus(txt)
txt_dfm <- quanteda::dfm(txt_corp,remove_punct=TRUE, remove_symbols=TRUE, remove_url = T)
topfeatures(txt_dfm)
Результат выглядит следующим образом:
topfeatures(txt_dfm)
viele dank für das feedback
1 1 1 1 1
die verbesserungsvorschläge #greenwashing #pr #vattenfal
1 1 1 1 1
Это неплохо. Но я бы хотел, чтобы результат был без хэштега (#). Я пробовал такие комбинации, как: txt_dfm <- quanteda::dfm(txt_corp,remove_punct=TRUE, remove_symbols=TRUE, remove_url = T, what ="word1")
topfeatures(txt_dfm)
viele dank für das feedback
1 1 1 1 1
die verbesserungsvorschläge http testurl.com 5lhk5p
1 1 1 1 1
Затем я получаю вышеуказанный результат. С одной стороны удаляются хэштеги, но с другой стороны ссылки разделяются и не удаляются. Может ли кто-нибудь помочь получить следующий результат с помощью quanteda?
viele dank für das feedback
1 1 1 1 1
die verbesserungsvorschläge greenwashing pr vattenfal
1 1 1 1 1