У меня есть набор данных, как показано ниже
**ID** **Text** **Category**
1 jake loves me more than john loves me Romance
2 july likes me more than robert loves me Friendship
3 He likes videogames more than baseball Interest
Мне нужно будет использовать приведенные выше данные в качестве обучающих данных для моей текстовой категоризации, а позже, когда я передам новое предложение, это предложение нужно будет классифицировать как одну категорию из вышеуказанных категорий, представленных в таблице выше.
Для начала я выполнил TFIDF (термин частота, обратная частоте документа) для вышеуказанного набора данных, как показано ниже.
mydoclist = []
#below im only taking my field 'Text' as input
f = open('C:\sample4.csv', "r")
reader = csv.reader(f)
for row in reader:
models.append(row)
f.close()
tf = TfidfVectorizer(tokenizer=lambda doc: doc,lowercase=False, analyzer='word', min_df = 0, stop_words = 'english')
tfidf_matrix = tf.fit_transform(mydoclist)
feature_names = tf.get_feature_names()
tfs = tf.fit_transform(mydoclist)
#storing my tfidf matrix
import pickle
with open("x_result.pkl", 'wb') as handle:
pickle.dump(tfidf_matrix, handle)
Я хотел бы знать, как я могу пометить категории из приведенного выше набора данных с помощью рассчитанной мной матрицы tfidf? Кроме того, позже, как я могу использовать приведенные выше данные для классификации любых новых данных?
sklearn
веб-сайте. . - person ChrisP   schedule 02.06.2016