首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >根据电影的分级和字幕对电影进行分类-准确率非常差

根据电影的分级和字幕对电影进行分类-准确率非常差
EN

Stack Overflow用户
提问于 2019-01-19 21:31:19
回答 1查看 28关注 0票数 0

我有一个包含130部电影及其字幕的数据集,我必须根据它们的评分(R,NR,PG,PG-13,G)对它们进行分类。(使用python的语言)我做了以下操作:1)使用treebank空白和wordpunc标记器对数据进行标记化。2)对数据进行列举化。(当包含pos标签时,列举化可以提供更高的准确性。3)删除停用词和标点符号。4)对于每个类别的电影,使用max_features进行tfidf向量化,选取前1000个单词,并构造一个大小为125 *5000的数据帧。5)我应用了几种分类和聚类算法,它们给出了如下精度: SVC:测试精度:0.325,训练精度:0.63朴素贝叶斯:测试acc:0.25,训练精度:0.33kNN:测试精度:0.41kmeans:测试精度:0.162逻辑回归:测试精度:0.53,训练精度:0.96kNN:测试精度:0.41kmeans:测试精度:0.162

我应该做些什么来提高我的准确性?我是不是犯了什么错误,或者错过了什么重要的东西?

EN

回答 1

Stack Overflow用户

发布于 2019-01-19 22:19:44

您足够幸运地拥有可以直观地理解的数据。尝试选择一些错误分类的示例,并尝试确定模型失败的原因。

  • 你是不是不小心把脏话过滤掉了?也许n-gram模型会更具预测性,

  • ,你有时间和文本吗?对话中的间隙可能表示情感或动作场面
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54267620

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档