Чтение CSV в R и желание сделать из него корпус с пакетом tm, но не получить желаемых результатов. В настоящее время, когда я читаю текст в формате CSV, а затем проверяю корпус, все данные числовые. (Я включил только первые три столбца data
для защиты конфиденциальности; их девять, как показано в результатах проверки.)
library(tm)
data <- read.csv("filename.csv")
head(data)
Directory.Code First.Name Last.Name
1 SCA0025 Nbcde Cdbaace
2 SCA0025 AJCocei aiceice
3 SCA0025 aceca Ac;eice
4 SCA0025 Acoicm aie;cee
5 SCA0025 acei aciomac
6 SCA0025 caeij CIMCEv
data.corp <- corpus(DataframeSource,data)
inspect(data.corp[1])
A corpus with 1 text document
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
$`1`
16
2195
6655
6613
1
5
9757
1
1
Если это поможет узнать цель: я пытаюсь прочитать в формате csv имена и ненормализованные названия/описания должностей, а затем сравнить с корпусом известных названий/описаний как категорий. Теперь, когда я ввожу это, я понимаю, что этот csv будет моими данными теста/прогноза, но я все еще хочу построить корпус из csv с colnames = KnownJobTitle,Description.
Цель этого вопроса - успешно прочитать CSV в корпус, но я также хотел бы знать, целесообразно ли использовать пакет tm для более чем двух категорий и/или есть ли другие пакеты, более подходящие для этой задачи. .