Я хочу поэкспериментировать, если наличие униграмм и биграмм в одном DFM улучшит мою классификацию документов. Я хотел бы создать как униграммы, так и биграммы в одном DFM. Оттуда я могу затем получить свой взвешенный DFM TF-IDF с учетом как униграмм, так и биграмм. Возможно, я могу создать unigram и bigram dfms отдельно, а затем объединить их. Но я хотел бы знать, есть ли у Quanteda более эффективный способ сделать это. Я ценю ваши ответы.
Quanteda объединяет униграммы и биграммы
Ответы (1)
Получил это со страницы Quanteda. Это работает с чем-то вроде этого.
toks_skip <- tokens_ngrams(toks, n = 1:2)
person
user115916
schedule
08.03.2021
toks_skip <- tokens_ngrams(toks, n = 1:2)
- person user115916   schedule 04.02.2021