пакетная фильтрация weka StringToWordVector

Я пытаюсь использовать Weka для классификации текста. У меня есть два файла ARFF:

Один для обучающего набора (пример строки в данных):

"мышь", нет, нет, нет, нет, нет, да, нет

и еще один для тестового набора (пример строки в данных:)

"Кот",?,?,?,?,?,?,?

У них одинаковое объявление атрибута. Но если я использую пакетную фильтрацию, он говорит мне: «Форматы входных файлов различаются». Почему?

Вот команда, которую я использую:

C:\Programmi\Weka-3-6>java -cp C:\Programmi\Weka-3-6\weka.jar 
  weka.filters.unsupervised.attribute.StringToWordVector -b -i test1.arff
  -o output_training.arff -c last -r tent.arff -s output_tent.arff
  -R -O -C -T -I -N 0 -M 1

Вот вам заголовки: 1) обучение

@RELATION tent

@Attribute text                 string
@Attribute politica             {yes,no}
@Attribute sports               {yes,no}
@Attribute cinema/tv/musica     {yes,no}
@Attribute stato_personale      {yes,no}
@Attribute moda/stile           {yes,no}
@Attribute conversazione        {yes,no}
@Attribute attualità            {yes,no}

2) тест

@RELATION test

@Attribute text                 string
@Attribute politica             {yes,no}
@Attribute sports               {yes,no}
@Attribute cinema/tv/musica     {yes,no}
@Attribute stato_personale      {yes,no}
@Attribute moda/stile           {yes,no}
@Attribute conversazione        {yes,no}
@Attribute attualità            {yes,no}

Я также пытался установить одно и то же имя @RELATION в обоих, но это дает ту же ошибку. По отдельности два файла работают нормально, и я могу правильно выполнить StringToWordVector. Спасибо еще раз

text-classification weka

user273686 11.12.2014 источник

comment

Пожалуйста, покажите нам заголовки ARFF обоих файлов вместо примеров строк, потому что проблема, вероятно, именно в этом. - Sentry 12.12.2014

comment

Я вставил заголовки. Спасибо еще раз!! - user273686 13.12.2014

пакетная фильтрация weka StringToWordVector

Похожие вопросы