Я пытаюсь использовать Weka для классификации текста. У меня есть два файла ARFF:
Один для обучающего набора (пример строки в данных):
"мышь", нет, нет, нет, нет, нет, да, нет
и еще один для тестового набора (пример строки в данных:)
"Кот",?,?,?,?,?,?,?
У них одинаковое объявление атрибута. Но если я использую пакетную фильтрацию, он говорит мне: «Форматы входных файлов различаются». Почему?
Вот команда, которую я использую:
C:\Programmi\Weka-3-6>java -cp C:\Programmi\Weka-3-6\weka.jar
weka.filters.unsupervised.attribute.StringToWordVector -b -i test1.arff
-o output_training.arff -c last -r tent.arff -s output_tent.arff
-R -O -C -T -I -N 0 -M 1
Вот вам заголовки: 1) обучение
@RELATION tent
@Attribute text string
@Attribute politica {yes,no}
@Attribute sports {yes,no}
@Attribute cinema/tv/musica {yes,no}
@Attribute stato_personale {yes,no}
@Attribute moda/stile {yes,no}
@Attribute conversazione {yes,no}
@Attribute attualità {yes,no}
2) тест
@RELATION test
@Attribute text string
@Attribute politica {yes,no}
@Attribute sports {yes,no}
@Attribute cinema/tv/musica {yes,no}
@Attribute stato_personale {yes,no}
@Attribute moda/stile {yes,no}
@Attribute conversazione {yes,no}
@Attribute attualità {yes,no}
Я также пытался установить одно и то же имя @RELATION в обоих, но это дает ту же ошибку. По отдельности два файла работают нормально, и я могу правильно выполнить StringToWordVector. Спасибо еще раз