У меня есть миллион файлов, включая свободный текст. Каждому файлу присвоен код или количество кодов. Коды можно рассматривать как категории. Я нормализовал текст, удалив стоп-слова. Я использую scikit-learn libsvm для обучения модели прогнозированию файлов для правильного кода (категории).
Я много читал и искал, но я не мог понять, как представить мои текстовые данные в целые числа, поскольку SVM или большинство инструментов машинного обучения используют числовые значения для обучения.
Я думаю, мне нужно будет найти tf-idf для каждого термина во всем корпусе. Но все же я не уверен, как это поможет мне преобразовать мои текстовые данные в формат libsvm.
любая помощь будет принята с благодарностью, спасибо.