Итак, у меня есть следующий список списков, которые токенизированы:
tokenized_list = [['ALL', 'MY', 'CATS', 'IN', 'A', 'ROW'], ['WHEN', 'MY',
'CAT', 'SITS', 'DOWN', ',', 'SHE', 'LOOKS', 'LIKE', 'A',
'FURBY', 'TOY', '!'], ['THE', CAT', 'FROM', 'OUTER',
'SPACE'], ['SUNSHINE', 'LOVES', 'TO', 'SIT',
'LIKE', 'THIS', 'FOR', 'SOME', 'REASON', '.']]
Когда я пытаюсь векторизовать его, используя CountVectorizer() или TfIdfVectorizer()
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
print(vectorizer.fit_transform(tokenized_list).todense())
print(vectorizer.vocabulary_)
Я получаю следующую ошибку:
AttributeError: 'list' object has no attribute 'lower'
И если я помещу простой список внутрь функции vectorizer.fit_transform(), он будет работать правильно.
Как убрать эту ошибку?
tokenized_list = [' '.join(inner_list) for inner_list in tokenized_list]
- person Vivek Kumar   schedule 10.04.2018@Vivek Kumar
решает вопрос, соединяя внутренние списки со строками. Вы бы пересмотрели флаг? - person WolfgangK   schedule 10.04.2018