文章/答案/技术大牛

发布

社区首页 >问答首页 >性能:提高朴素贝叶斯分类器的准确性

问性能:提高朴素贝叶斯分类器的准确性
EN

Stack Overflow用户

提问于 2017-08-05 23:00:30

回答 1查看 745关注 0票数 0

我正在开发一个简单的朴素贝叶斯文本分类器，它使用Brown语料库进行测试和训练数据。到目前为止，在没有任何预处理的情况下，我使用简单的方法得到了53%的准确率。为了改进我的分类器，我添加了一些预处理(停用词、词汇化、词干、词性标记)，但我的性能似乎变得更差(11%)。我做错了什么？我刚开始使用Python，所以我非常感谢能得到的任何帮助。

import nltk, random

from nltk.corpus import brown, stopwords
from nltk.stem.porter import PorterStemmer

documents = [(list(brown.words(fileid)), category)
        for category in brown.categories()
        for fileid in brown.fileids(category)]

random.shuffle(documents)

stop = set(stopwords.words('english'))


without_stop = [w for w in brown.words() if w not in stop] 

lowercase = [w.lower() for w in without_stop] # lowercase


porter = PorterStemmer()
stemmed = [porter.stem(w) for w in lowercase] 

wnl = nltk.WordNetLemmatizer()
lemmatized = [wnl.lemmatize(w) for w in stemmed] 
tagged = nltk.pos_tag(lemmatized) 


all_words = nltk.FreqDist(tagged) 

word_features = list(all_words.keys())[:2000]

def document_features(document):
    document_words = set(document)
    features = {}
    for word in word_features:
       features['contains({})'.format(word)] = (word in document_words)
    return features


featuresets = [(document_features(d), c) for (d,c) in documents]
train_set, test_set = featuresets[100:], featuresets[:100]

classifier = nltk.NaiveBayesClassifier.train(train_set)

print(nltk.classify.accuracy(classifier, test_set))

naivebayes

stemming

python

nltk

text-classification

回答 1

Stack Overflow用户

发布于 2017-10-13 16:32:20

也许我遗漏了什么，但我不能解决你试图解决的分类问题。

您正在随机排列文档，然后在使用大量来自词干提取、位置标注等的额外数据丰富每个文档后，将这些文档拆分为测试集和训练集。

类之间的划分是如何进行的？你在纯文本上得到的结果更好，因为问题空间的排名要小得多(没有额外的功能爆炸问题空间的大小)。因此，对于相对较小的棕色语料库，分类器可以拆分问题。

陈述您的分类问题，并将特征与其对齐。然后进行编码。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45523311

复制

相似问题

问性能:提高朴素贝叶斯分类器的准确性
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问性能:提高朴素贝叶斯分类器的准确性EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问性能:提高朴素贝叶斯分类器的准确性
EN