Я хотел бы манипулировать (переименовывать и комбинировать) функции в dfm, как действовать?
Причина в следующем: я хочу использовать другой алгоритм стемминга, нежели стеммер Портера, реализованный в Quanteda (алгоритм kpss, вызываемый через Python).
Пример Предложение c из трех слов ("creatief creatieve creatie") приведет к dfm с тремя функциями (например, "creatief", "creatieve", "creatie"), все с периодичностью термина из 1. Однако алгоритм kpss свяжет эти слова до "creatie". Было бы очень удобно, если бы я мог объединить эти три функции в dfm в одну функцию, называемую «creatie», с частотой запроса три.
Ваша помощь очень ценится.
(Примечание. Я понимаю, что такие манипуляции с данными возможны после преобразования dfm в «простую» матрицу, но я хотел бы сделать это в dfm).
Добавление. Я упустил из виду функцию dfm_compress. Я почти готов ... После того, как я сжал dfm, можно ли применить словарь, например оба слова «креати» и «новаторство» должны учитываться как вхождения категории слова «креати» (см. словарную функцию в dfm)? (Примечание. Учитывая огромный объем текстовых сообщений, я бы предпочел не останавливать файлы сырых данных)