Я хочу знать, как лучше всего считать слова в документе. Если у меня есть собственная настройка корпуса «corp.txt», и я хочу знать, как часто в файле «corp.txt» встречаются слова «students, trust, ayre». Что я мог использовать?
Будет ли это одним из следующих:
....
full=nltk.Text(mycorpus.words('FullReport.txt'))
>>> fdist= FreqDist(full)
>>> fdist
<FreqDist with 34133 outcomes>
// HOW WOULD I CALCULATE HOW FREQUENTLY THE WORDS
"students, trust, ayre" occur in full.
Спасибо, Рэй
FreqDist.fdist = FreqDist(); for word in tokenize.whitespace(sent): fdist.inc(word.lower()). Вы можете ознакомиться с документом здесь . - person aayoubi   schedule 15.11.2011