Я тренирую классификатор mahout. Нужно ли мне делать вывод, нижний регистр и удалять стоп-слова в моих обучающих данных, или mahout позаботится об этом как часть процесса обучения. Ниже команда, которую я использую для обучения.
$MAHOUT_HOME/bin/mahout trainclassifier -i category-training-data -o category-bayes-model -type bayes -ng 1 -source hdfs