Производительность: повышение точности наивного байесовского классификатора

Я работаю над простым наивным байесовским текстовым классификатором, который использует Коричневый корпус для тестовых и обучающих данных. Пока что я получил точность 53% при использовании простого подхода без какой-либо предварительной обработки. Чтобы улучшить свой классификатор, я добавил некоторую предварительную обработку (стоп-слова, лемматизация, стемминг, позиционная маркировка), но моя производительность, похоже, ухудшается (11%). Что я делаю неправильно? Я только начал с Python, поэтому благодарен за любую помощь, которую могу получить.

import nltk, random

from nltk.corpus import brown, stopwords
from nltk.stem.porter import PorterStemmer

documents = [(list(brown.words(fileid)), category)
        for category in brown.categories()
        for fileid in brown.fileids(category)]

random.shuffle(documents)

stop = set(stopwords.words('english'))


without_stop = [w for w in brown.words() if w not in stop] 

lowercase = [w.lower() for w in without_stop] # lowercase


porter = PorterStemmer()
stemmed = [porter.stem(w) for w in lowercase] 

wnl = nltk.WordNetLemmatizer()
lemmatized = [wnl.lemmatize(w) for w in stemmed] 
tagged = nltk.pos_tag(lemmatized) 


all_words = nltk.FreqDist(tagged) 

word_features = list(all_words.keys())[:2000]

def document_features(document):
    document_words = set(document)
    features = {}
    for word in word_features:
       features['contains({})'.format(word)] = (word in document_words)
    return features


featuresets = [(document_features(d), c) for (d,c) in documents]
train_set, test_set = featuresets[100:], featuresets[:100]

classifier = nltk.NaiveBayesClassifier.train(train_set)

print(nltk.classify.accuracy(classifier, test_set))

person LittleEntertainer    schedule 05.08.2017    source источник


Ответы (1)


Возможно, мне что-то не хватает, но я не могу решить проблему классификации, которую вы пытаетесь решить.

Вы случайным образом упорядочиваете документы, которые затем разделяете на тестовый и обучающий набор после обогащения каждого документа множеством дополнительных данных из стемминга, pos-тегов и т. Д.

Как разделение следует за разделением между классами? Результаты, которые вы получали с чистым текстом, были лучше, потому что проблемное пространство было гораздо меньшего ранга (никаких дополнительных функций, увеличивающих размер проблемного пространства). Следовательно, с относительно небольшим корпусом Брауна классификатор мог разделить проблему.

Сформулируйте проблему классификации и совместите с ней объекты. Затем закодируйте это.

person sophros    schedule 13.10.2017