KNIME - строки для узла документа более чем по одному атрибуту

Я разрабатываю наивный байесовский классификатор, используя следующий набор данных (https://www.kaggle.com/crowdflower/twitter-user-gender-classification/data).

То, что я пытаюсь сделать, это отработать классификатор, который позволяет мне предсказать пол пользователя на основе текста в твиттере, описания профиля в твиттере и бокового цвета профиля в твиттере. Поскольку атрибуты текста в Твиттере и описания профиля представляют собой строковые столбцы, мне необходимо предварительно обработать данные перед обучением классификатора. Я видел, что для этого во многих примерах используется узел Strings to Document. Затем этот новый столбец «Документ» предварительно обрабатывается другим узлом, таким как числовой фильтр, преобразователь регистра и т. д.

Поскольку я хочу использовать более одного атрибута для обучения моего классификатора, что мне нужно сделать? Должен ли я преобразовывать в документы оба строковых атрибута (текст твиттера и описание профиля)?


person Giordano    schedule 01.05.2018    source источник
comment
Вам решать, что делать с вашими данными. Если вы не хотите использовать два узла Strings to Document, вы можете просто объединить два строковых столбца перед этим (хотя это может быть не то, что вам нужно, поскольку это разные тексты). Я не вижу никаких проблем с двумя узлами Strings to Document в рабочем процессе.   -  person Gábor Bakos    schedule 01.05.2018


Ответы (1)


Я могу предложить вам создать метанод со всей предварительной обработкой, которую вы хотите, а затем скопировать этот метанод для предварительной обработки каждого строкового столбца, который вы считаете полезным для вашей модели. Затем просто используйте узел извлечения данных и объедините столбцы предварительно обработанных строк с узлом добавления столбца в новую таблицу.

person Jason Angel    schedule 28.08.2018