У меня есть корпус, в котором я использую пакет tm в R (а также отражаю тот же скрипт в NLTK в python). Я работаю с униграммами, но хотел бы, чтобы какой-нибудь синтаксический анализатор объединял слова, обычно совмещенные, как одно слово, т. е. я хотел бы перестать видеть «Новый» и «Йорк» по отдельности в моем набор данных, когда они встречаются вместе, и видеть эту конкретную пару, представленную как «Нью-Йорк», как если бы это было одно слово, и рядом с другими униграммами.
Как называется этот процесс преобразования значимых, обычных n-грамм в ту же основу, что и униграммы? Разве это не вещь? Наконец, как будет выглядеть tm_map
для этого?
mydata.corpus <- tm_map(mydata.corpus, fancyfunction)
И/или в питоне?