У меня есть вопрос о TfidfVectorizer sklearn, когда он определяет частоту слова в каждом документе.
пример кода, который я видел:
>>> from sklearn.feature_extraction.text import TfidfVectorizer
>>> corpus = [
>>> 'The dog ate a sandwich and I ate a sandwich',
>>> 'The wizard transfigured a sandwich'
>>> ]
>>> vectorizer = TfidfVectorizer(stop_words='english')
>>> print vectorizer.fit_transform(corpus).todense()
[[ 0.75458397 0.37729199 0.53689271 0. 0. ]
[ 0. 0. 0.44943642 0.6316672 0.6316672 ]]
мой вопрос: как мне интерпретировать числа в матрице? Я понимаю, что 0 означает, что слово, т.е. мастер, появляется 0 раз в первом документе, следовательно, это 0, но как мне интерпретировать число 0,75458397? Частота появления слова «съел» в первом документе? Или частота слова "съел" во всем корпусе?