Как распечатать небольшой образец или первую строку корпуса в R с помощью пакета tm? У меня очень большой корпус (> 1 ГБ), и я занимаюсь очисткой текста. Я хотел бы проверить, как я применяю процедуры очистки. Печатать только первую строку или первые несколько строк корпуса было бы идеально.
# Load Libraries
library(tm)
# Read in Corpus
corp <- SimpleCorpus( DirSource(
"C:/TextDocument"))
# Remove puncuation
corp <- removePunctuation(corp,
preserve_intra_word_contractions = TRUE,
preserve_intra_word_dashes = TRUE)
Я пытался получить доступ к корпусу несколькими способами:
# Print first line of first element of corpus
corp[[1]][[1]]
# Print first line using 'content' element of corpus
corp[[1]]$content[[1]]
Оба они приводят к очень длительному времени работы без желаемого результата.
Необработанный корпус в пакете tm можно использовать в качестве примера.
data("crude")