KNIME - строки для узла документа более чем по одному атрибуту

Я разрабатываю наивный байесовский классификатор, используя следующий набор данных (https://www.kaggle.com/crowdflower/twitter-user-gender-classification/data).

То, что я пытаюсь сделать, это отработать классификатор, который позволяет мне предсказать пол пользователя на основе текста в твиттере, описания профиля в твиттере и бокового цвета профиля в твиттере. Поскольку атрибуты текста в Твиттере и описания профиля представляют собой строковые столбцы, мне необходимо предварительно обработать данные перед обучением классификатора. Я видел, что для этого во многих примерах используется узел Strings to Document. Затем этот новый столбец «Документ» предварительно обрабатывается другим узлом, таким как числовой фильтр, преобразователь регистра и т. д.

Поскольку я хочу использовать более одного атрибута для обучения моего классификатора, что мне нужно сделать? Должен ли я преобразовывать в документы оба строковых атрибута (текст твиттера и описание профиля)?

Giordano 01.05.2018 источник

comment

Вам решать, что делать с вашими данными. Если вы не хотите использовать два узла Strings to Document, вы можете просто объединить два строковых столбца перед этим (хотя это может быть не то, что вам нужно, поскольку это разные тексты). Я не вижу никаких проблем с двумя узлами Strings to Document в рабочем процессе. - Gábor Bakos 01.05.2018

Ответы (1)

arrow_upward
0
arrow_downward

Я могу предложить вам создать метанод со всей предварительной обработкой, которую вы хотите, а затем скопировать этот метанод для предварительной обработки каждого строкового столбца, который вы считаете полезным для вашей модели. Затем просто используйте узел извлечения данных и объедините столбцы предварительно обработанных строк с узлом добавления столбца в новую таблицу.

Jason Angel 28.08.2018

KNIME - строки для узла документа более чем по одному атрибуту

Ответы (1)

Похожие вопросы