Я разрабатываю наивный байесовский классификатор, используя следующий набор данных (https://www.kaggle.com/crowdflower/twitter-user-gender-classification/data).
То, что я пытаюсь сделать, это отработать классификатор, который позволяет мне предсказать пол пользователя на основе текста в твиттере, описания профиля в твиттере и бокового цвета профиля в твиттере. Поскольку атрибуты текста в Твиттере и описания профиля представляют собой строковые столбцы, мне необходимо предварительно обработать данные перед обучением классификатора. Я видел, что для этого во многих примерах используется узел Strings to Document. Затем этот новый столбец «Документ» предварительно обрабатывается другим узлом, таким как числовой фильтр, преобразователь регистра и т. д.
Поскольку я хочу использовать более одного атрибута для обучения моего классификатора, что мне нужно сделать? Должен ли я преобразовывать в документы оба строковых атрибута (текст твиттера и описание профиля)?