文章/答案/技术大牛

发布

社区首页 >问答首页 >根据电影的分级和字幕对电影进行分类-准确率非常差

问根据电影的分级和字幕对电影进行分类-准确率非常差
EN

Stack Overflow用户

提问于 2019-01-19 21:31:19

回答 1查看 28关注 0票数 0

我有一个包含130部电影及其字幕的数据集，我必须根据它们的评分(R，NR，PG，PG-13，G)对它们进行分类。(使用python的语言)我做了以下操作:1)使用treebank空白和wordpunc标记器对数据进行标记化。2)对数据进行列举化。(当包含pos标签时，列举化可以提供更高的准确性。3)删除停用词和标点符号。4)对于每个类别的电影，使用max_features进行tfidf向量化，选取前1000个单词，并构造一个大小为125 *5000的数据帧。5)我应用了几种分类和聚类算法，它们给出了如下精度: SVC:测试精度:0.325，训练精度:0.63朴素贝叶斯:测试acc:0.25，训练精度:0.33kNN:测试精度:0.41kmeans:测试精度:0.162逻辑回归:测试精度:0.53，训练精度:0.96kNN:测试精度:0.41kmeans:测试精度:0.162

我应该做些什么来提高我的准确性？我是不是犯了什么错误，或者错过了什么重要的东西？

nlp

tokenize

text-classification

naivebayes

svc

回答 1

Stack Overflow用户

发布于 2019-01-19 22:19:44

您足够幸运地拥有可以直观地理解的数据。尝试选择一些错误分类的示例，并尝试确定模型失败的原因。

你是不是不小心把脏话过滤掉了？也许n-gram模型会更具预测性，

，

，你有时间和文本吗？对话中的间隙可能表示情感或动作场面

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54267620

复制

相似问题

问根据电影的分级和字幕对电影进行分类-准确率非常差
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问根据电影的分级和字幕对电影进行分类-准确率非常差EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问根据电影的分级和字幕对电影进行分类-准确率非常差
EN