Немного странный вопрос: есть ли способ разделить документы корпуса, которые были импортированы с помощью функции Корпуса в tm, на несколько документов, которые затем можно будет перечитать в моем Корпусе как отдельные документы? Например, если бы я использовал inspect(documents[1])
и имел что-то вроде
`<<VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>>`
`[[1]]`
`<<PlainTextDocument (metadata: 7)>>`
The quick brown fox jumped over the lazy dog
I think cats are really cool
I want to split after this line!!!
Hi mom
Purple is my favorite color
I want to split after this line!!!
Words
And stuff
и я хочу разделить документ после фразы, которую я хочу разделить после этой строки!!! появляется дважды в этом случае, возможно ли это?
Конечный результат будет выглядеть так после использования inspect(documents)
<<VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>>
[[1]]
<<PlainTextDocument (metadata: 7)>>
Быстрая, коричневая лиса, перепрыгнула через ленивого пса
Я думаю, что кошки действительно крутые
Я хочу разойтись после этой строчки!!!
[[2]]
<<PlainTextDocument (metadata: 7)>>
Привет мама
Фиолетовый мой любимый цвет
Я хочу разойтись после этой строчки!!!
[[3]]
<<PlainTextDocument (metadata: 7)>>
Слова
И прочее