У меня есть список, содержащий текстовые элементы.
text = ['a for=apple','b for=ball', 'd for=dog', 'e for=elephant', 'a for=apple', 'd for=dog', '1.=one', '2.=two']
Мне нужно получить количество текста, который присутствует до "=". Я использовал CountVectorizer, как показано ниже, с шаблоном токена, но он не дает ожидаемых результатов.
print(text)
vectorizer = CountVectorizer()
vectorizer = CountVectorizer(token_pattern="^[^=]+")
vectorizer.fit(text)
print(vectorizer.vocabulary_)
Что дает вывод, как показано ниже
{'a for': 2, 'b for': 3, 'd for': 4, 'e for': 5, '1.': 0, '2.': 1}
Но ожидаемый результат должен быть
{'a for': 2, 'b for': 1, 'd for': 2, 'e for': 1, '1.': 1, '2.': 1}
Также мне нужно удалить "." от 1." чтобы мой вывод был
{'a for': 2, 'b for': 1, 'd for': 2, 'e for': 1, '1': 1, '2': 1}
Есть ли способ сделать это?
"."
на""
. - person MIftikharK   schedule 20.01.2018