Я пытаюсь написать реализацию Document Categorizer с уменьшением карты, используя OpenNLP.
На этапе обучения я планирую прочитать большое количество файлов и создать файл модели в результате вычисления уменьшения карты (может быть цепочка заданий). Я раздам файлы по разным мапперам, в результате этого шага я создам несколько файлов моделей. Теперь я хочу сократить эти файлы моделей до одного файла модели, который будет использоваться для классификации.
Я понимаю, что это не самый интуитивный вариант использования, но я готов запачкать руки и расширить/изменить исходный код OpenNLP, предполагая, что можно настроить алгоритм maxent для работы таким образом.
В случае, если это кажется слишком надуманным, я прошу предложения сделать это, создав образцы документов, соответствующие входным файлам, в качестве выходных данных шага уменьшения карты и сократив их до файлов моделей, передав их тренеру классификатора документов.
Спасибо!