Quanteda объединяет униграммы и биграммы

Я хочу поэкспериментировать, если наличие униграмм и биграмм в одном DFM улучшит мою классификацию документов. Я хотел бы создать как униграммы, так и биграммы в одном DFM. Оттуда я могу затем получить свой взвешенный DFM TF-IDF с учетом как униграмм, так и биграмм. Возможно, я могу создать unigram и bigram dfms отдельно, а затем объединить их. Но я хотел бы знать, есть ли у Quanteda более эффективный способ сделать это. Я ценю ваши ответы.


person user115916    schedule 04.02.2021    source источник
comment
Получил это со страницы Quanteda. Это работает с чем-то вроде этого. toks_skip <- tokens_ngrams(toks, n = 1:2)   -  person user115916    schedule 04.02.2021
comment
Точно, это решение.   -  person Ken Benoit    schedule 04.02.2021
comment
Пожалуйста, рассмотрите возможность публикации этого ответа (и примите его), чтобы он мог быть полезен другим в будущем (комментарии могут быть удалены в любое время).   -  person desertnaut    schedule 08.03.2021


Ответы (1)


Получил это со страницы Quanteda. Это работает с чем-то вроде этого.

toks_skip <- tokens_ngrams(toks, n = 1:2)
person user115916    schedule 08.03.2021