我有一个包含130部电影及其字幕的数据集,我必须根据它们的评分(R,NR,PG,PG-13,G)对它们进行分类。(使用python的语言)我做了以下操作:1)使用treebank空白和wordpunc标记器对数据进行标记化。2)对数据进行列举化。(当包含pos标签时,列举化可以提供更高的准确性。3)删除停用词和标点符号。4)对于每个类别的电影,使用max_features进行tfidf向量化,选取前1000个单词,并构造一个大小为125 *5000的数据帧。5)我应用了几种分类和聚类算法,它们给出了如下精度: SVC:测试精度:0.325,训练精度:0.63朴素贝叶斯:测试acc:0.25,训练精度:0.33kNN:测试精度:0.41kmeans:测试精度:0.162逻辑回归:测试精度:0.53,训练精度:0.96kNN:测试精度:0.41kmeans:测试精度:0.162
我应该做些什么来提高我的准确性?我是不是犯了什么错误,或者错过了什么重要的东西?
发布于 2019-01-19 22:19:44
您足够幸运地拥有可以直观地理解的数据。尝试选择一些错误分类的示例,并尝试确定模型失败的原因。
,
https://stackoverflow.com/questions/54267620
复制相似问题