Я пытаюсь создать матрицу терминов-документов, в которой перечислены все униграммы в корпусе, но также извлекается определенный список биграмм. Так, например, в предложении «используйте свой сигнал поворота» будут перечислены «использовать», «ваш» и «указатель поворота».
В документации предоставленный образец токенизатора:
strsplit_space_tokenizer <- function(x) unlist(strsplit(as.character(x), "[[:space:]]+"))
Любые идеи о том, как написать токенизатор, который находит заданный вектор биграмм и возвращает остальные в виде униграмм?
Спасибо!