Предварительная обработка обучающих данных классификатора mahout

Я тренирую классификатор mahout. Нужно ли мне делать вывод, нижний регистр и удалять стоп-слова в моих обучающих данных, или mahout позаботится об этом как часть процесса обучения. Ниже команда, которую я использую для обучения.

$MAHOUT_HOME/bin/mahout trainclassifier -i category-training-data -o category-bayes-model -type bayes -ng 1 -source hdfs

machine-learning mahout

NutchUser 21.03.2013 источник

Ответы (1)

arrow_upward
1
arrow_downward

Он не делает предварительной обработки такого рода, нет.

Sean Owen 21.03.2013

comment

Спасибо Шон за ответ. Но после такой предварительной обработки (упомянутой в вопросе) моих данных точность классификатора повышается или нет ?? - NutchUser; 21.03.2013

comment

Вероятно, потому что вы склонны игнорировать сигналы, которые не сильно различают классы (стоп-слова), и распознавать, когда две строки на самом деле являются одним и тем же семантическим понятием, что и должно быть признаками (стемминг). - Sean Owen; 21.03.2013

Предварительная обработка обучающих данных классификатора mahout

Ответы (1)

Похожие вопросы