Импорт DataframeSource пакета R tm

Чтение CSV в R и желание сделать из него корпус с пакетом tm, но не получить желаемых результатов. В настоящее время, когда я читаю текст в формате CSV, а затем проверяю корпус, все данные числовые. (Я включил только первые три столбца data для защиты конфиденциальности; их девять, как показано в результатах проверки.)

library(tm)

data <- read.csv("filename.csv")
head(data)    
  Directory.Code First.Name Last.Name
1        SCA0025     Nbcde    Cdbaace
2        SCA0025   AJCocei    aiceice
3        SCA0025      aceca   Ac;eice
4        SCA0025      Acoicm  aie;cee 
5        SCA0025     acei     aciomac
6        SCA0025       caeij   CIMCEv

data.corp <- corpus(DataframeSource,data)
inspect(data.corp[1])
A corpus with 1 text document

The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
  create_date creator 
Available variables in the data frame are:
  MetaID 

$`1`
16
2195
6655
6613
1
5
9757
1
1

Если это поможет узнать цель: я пытаюсь прочитать в формате csv имена и ненормализованные названия/описания должностей, а затем сравнить с корпусом известных названий/описаний как категорий. Теперь, когда я ввожу это, я понимаю, что этот csv будет моими данными теста/прогноза, но я все еще хочу построить корпус из csv с colnames = KnownJobTitle,Description.

Цель этого вопроса - успешно прочитать CSV в корпус, но я также хотел бы знать, целесообразно ли использовать пакет tm для более чем двух категорий и/или есть ли другие пакеты, более подходящие для этой задачи. .


person user1174265    schedule 26.04.2013    source источник
comment
Вероятно, это будет полезно: stackoverflow.com/a/15693766/1036500   -  person Ben    schedule 27.04.2013


Ответы (1)


Я получаю аналогичную ошибку. Это потому, что текстовые поля, считанные из csv, являются категориальными, а не char. Вам нужно сначала преобразовать их в символ, используя что-то вроде:

data <- data.frame(lapply(data, as.character), stringsAsFactors=FALSE)
person user3147718    schedule 30.12.2013