Кластеризация с перекрестной проверкой в ​​Rapid Miner

Я не уверен, что я делаю неправильно здесь, но я надеюсь, что кто-то может мне помочь. Я пытаюсь запустить x-проверку в быстром майнере с кластеризацией k-средних в качестве моей модели.

Я импортирую свой набор данных, устанавливаю роль «метки» для одного атрибута, преобразовываю данные из номинальных в числовые, а затем подключаю этот вывод к процессу x-валидации. Затем я подключаю обучающие данные к модели кластеризации k-средних и подключаю модель кластеризации к модели для данных тестирования. Я применяю модель из модели k-средних, а затем применяю процесс производительности.

Я продолжаю получать сообщение об ошибке, что мне нужен специальный атрибут «метка».

Я не уверен, что я делаю неправильно здесь, любая помощь приветствуется.

Основной процесс: main-process

Процесс X-проверки: x-validation

Сообщение об ошибке: error


person Narutkowski    schedule 14.12.2014    source источник


Ответы (2)


X-Validation требует метки и прогноза. Кластеризация не дает прогноза; он распределяет примеры по разным кластерам. Чтобы изменить выделенный кластер на прогноз, вы можете использовать оператор Map Clustering on Labels. Поместите это между операторами Apply Model и Performance.

Если количество кластеров отличается от количества допустимых значений меток, процесс выдаст ошибку.

person Andrew Chisholm    schedule 14.12.2014

если вы хотите проверить свою кластеризацию при проверке, вам также может подойти процедура начальной загрузки. Начальную загрузку можно легко заархивировать, используя цикл и пример оператора. Прилагается процесс, делающий это.

Если вы используете сопоставление из кластеризации для маркировки, вы просто получаете производительность из проверки. Если вы хотите иметь сгруппированные примеры, вы можете использовать X-Prediction с тем же трюком.

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<process version="6.1.001-SNAPSHOT">
  <context>
    <input/>
    <output/>
    <macros/>
  </context>
  <operator activated="true" class="process" compatibility="6.1.001-SNAPSHOT" expanded="true" name="Process">
    <process expanded="true">
      <operator activated="true" class="retrieve" compatibility="6.1.001-SNAPSHOT" expanded="true" height="60" name="Retrieve Sonar" width="90" x="112" y="75">
        <parameter key="repository_entry" value="//Samples/data/Sonar"/>
      </operator>
      <operator activated="true" class="loop" compatibility="6.1.001-SNAPSHOT" expanded="true" height="76" name="Loop" width="90" x="313" y="75">
        <parameter key="iterations" value="10"/>
        <process expanded="true">
          <operator activated="true" class="sample_bootstrapping" compatibility="6.1.001-SNAPSHOT" expanded="true" height="76" name="Sample (Bootstrapping)" width="90" x="179" y="30"/>
          <operator activated="true" class="k_means" compatibility="6.1.001-SNAPSHOT" expanded="true" height="76" name="Clustering (2)" width="90" x="313" y="30"/>
          <connect from_port="input 1" to_op="Sample (Bootstrapping)" to_port="example set input"/>
          <connect from_op="Sample (Bootstrapping)" from_port="example set output" to_op="Clustering (2)" to_port="example set"/>
          <connect from_op="Clustering (2)" from_port="cluster model" to_port="output 1"/>
          <portSpacing port="source_input 1" spacing="0"/>
          <portSpacing port="source_input 2" spacing="0"/>
          <portSpacing port="sink_output 1" spacing="0"/>
          <portSpacing port="sink_output 2" spacing="0"/>
        </process>
      </operator>
      <connect from_op="Retrieve Sonar" from_port="output" to_op="Loop" to_port="input 1"/>
      <connect from_op="Loop" from_port="output 1" to_port="result 1"/>
      <portSpacing port="source_input 1" spacing="0"/>
      <portSpacing port="sink_result 1" spacing="0"/>
      <portSpacing port="sink_result 2" spacing="0"/>
    </process>
  </operator>
</process>
person mschmitz    schedule 15.12.2014