Я использую Sklearn CountVectorizer() для преобразования моего текстового документа в матрицу совпадения артиклей и слов. Это отлично сработало, однако я хочу, чтобы он исключал строки, соответствующие документам, содержащим менее k слов.
Я попытался сделать это с помощью простого цикла for, однако, поскольку я работаю с запасными массивами, он не работает. Это также не самый элегантный код — должен быть способ получше!
Приведенный ниже код находит матрицу совпадений X, цикл перебирает каждую строку и проверяет, есть ли более k слов.
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(doc)
for i in range(len(data)):
if sum(X[i,:])<k:
count += 1