Не уверен, что вы спрашиваете технически, как объединить два объекта в коде или что делать теоретически после этого, поэтому я постараюсь ответить на оба.
Технически ваш TFIDF - это просто матрица, в которой строки являются записями, а столбцы - функциями. Таким образом, для объединения вы можете добавлять свои новые функции в виде столбцов в конец матрицы. Вероятно, ваша матрица является разреженной матрицей (от Scipy), если вы сделали это с помощью sklearn, поэтому вам нужно будет убедиться, что ваши новые функции также являются разреженной матрицей (или сделать другую плотную).
Это дает вам данные для тренировок, с точки зрения того, что с ними делать, немного сложнее. Ваши функции из матрицы частот биграмм будут разреженными (я не говорю здесь о структурах данных, я просто имею в виду, что у вас будет много нулей), и они будут двоичными. В то время как другие ваши данные являются плотными и непрерывными. Это будет работать в большинстве алгоритмов машинного обучения как есть, хотя в прогнозе, вероятно, будут преобладать плотные переменные. Однако, немного поработав с функциями, я в прошлом построил несколько классификаторов, используя ансамбли деревьев, которые принимают комбинацию переменных частоты терминов, обогащенных некоторыми другими более плотными переменными, и дают улучшенные результаты (например, классификатор, который просматривает профили Twitter и классифицирует их как компании или люди). Обычно я добивался лучших результатов, когда мог, по крайней мере, разделить плотные переменные на двоичные (или категориальные, а затем горячо закодировать в двоичные), чтобы они не преобладали.
person
Usherwood
schedule
01.02.2018