Предварительная обработка обучающих данных классификатора mahout

Я тренирую классификатор mahout. Нужно ли мне делать вывод, нижний регистр и удалять стоп-слова в моих обучающих данных, или mahout позаботится об этом как часть процесса обучения. Ниже команда, которую я использую для обучения.

$MAHOUT_HOME/bin/mahout trainclassifier -i category-training-data -o category-bayes-model -type bayes -ng 1 -source hdfs

person NutchUser    schedule 21.03.2013    source источник


Ответы (1)


Он не делает предварительной обработки такого рода, нет.

person Sean Owen    schedule 21.03.2013
comment
Спасибо Шон за ответ. Но после такой предварительной обработки (упомянутой в вопросе) моих данных точность классификатора повышается или нет ?? - person NutchUser; 21.03.2013
comment
Вероятно, потому что вы склонны игнорировать сигналы, которые не сильно различают классы (стоп-слова), и распознавать, когда две строки на самом деле являются одним и тем же семантическим понятием, что и должно быть признаками (стемминг). - person Sean Owen; 21.03.2013