Я изучаю классификацию с несколькими метками и пытаюсь реализовать учебник tfidf из обучения scikit. Я имею дело с текстовым корпусом для расчета его оценки tf-idf. Для этой цели я использую модуль sklearn.feature_extraction.text. Используя CountVectorizer и TfidfTransformer, теперь мой корпус векторизован и tfidf для каждого словаря. Проблема в том, что теперь у меня разреженная матрица, например:
(0, 47) 0.104275891915
(0, 383) 0.084129133023
.
.
.
.
(4, 308) 0.0285015996586
(4, 199) 0.0285015996586
Я хочу преобразовать этот sparse.csr.csr_matrix в список списков, чтобы я мог избавиться от идентификатора документа из приведенного выше csr_matrix и получить пару tfidf и dictionaryId, например
47:0.104275891915 383:0.084129133023
.
.
.
.
308:0.0285015996586
199:0.0285015996586
Есть ли способ преобразовать в список списков или любой другой способ, с помощью которого я могу изменить формат, чтобы получить пару tfidf-vocabularyId?