Я пытаюсь очистить некоторые текстовые данные, а после токенизации и, например, удаляя пунктуацию, я хочу, чтобы я преобразовал объект токена в вектор / фрейм данных / корпус.
Мой текущий подход:
library(quanteda)
library(dplyr)
raw <- c("This is text #1.", "And a second document...")
tokens <- raw %>% tokens(remove_punct = T)
docs <- lapply(tokens, toString) %>% gsub(pattern = ",", replacement = "")
Есть ли более качественный или хотя бы более простой способ сделать это?
toString()
возвращает все токены в одной строке, но через запятую. - person Nicolai Berk   schedule 02.02.2021tokens()
, это только минимальный пример. - person Nicolai Berk   schedule 02.02.2021