У меня довольно упорная проблема... Я не могу удалить строки <+f0b7>
и <+f0a0>
из Corpora, которые были загружены из файлов *.txt
в R:
ОБНОВЛЕНИЕ Вот ссылка на образец файла .txt
: https://db.tt/qTRKpJYK
Corpus(DirSource("./SomeDirectory/txt/"), readerControl = list(reader = readPlain))
title
professional staff - contract - permanent position
software c microfocus cobol unix btrieve ibm vm-cms vsam cics jcl
accomplishments
<+f0b7>
<+f0a0>
responsible maintaining billing system interfaced cellular switching system <+f0b7>
<+f0a0>
developed unix interface ibm mainframe ericsson motorola att cellular switches
Я пытался добавить его в:
badWords <- unique(c(stopwords("en"),
stopwords("SMART")[stopwords("SMART") != "c"],
as.character(1970:2050),
"<U+F0B7>", "<+f0b7>",
"<U+F0A0>", "<+f0a0>",
"january", "jan",
"february", "feb",
"march", "mar",
"april", "apr",
"may", "may",
"june", "jun",
"july", "jul",
"august", "aug",
"september", "sep",
"october", "oct",
"november", "nov",
"december", "dec"))
И используя:
tm_map(candidates.Corpus, removeWords, badWords)
Но это как-то не работает. Я также пытался использовать регулярное выражение с чем-то вроде gsub("<+f0a0>", "", tmp, perl = FALSE)
, и это работает со строкой в R, но каким-то образом эти символы все еще отображаются, когда я читаю файл .txt
.
Есть ли что-то уникальное в этих персонажах? Как мне избавиться от них?
"<U+F0B7>"
, или вы говорите, что в вашем тексте появляется символ Юникода<U+F0B7>
? Выводит ли R это значение на экран? - person MrFlick   schedule 10.06.2014inspect()
элемент Корпуса, R фактически выводит это значение на мой экран. - person Ray   schedule 11.06.2014