首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >WEKA分类器评价

WEKA分类器评价
EN

Stack Overflow用户
提问于 2016-04-27 18:28:40
回答 1查看 422关注 0票数 0

我试着在WEKA中使用10倍的CV来评估分类器的性能。我有三万二千张唱片,分成三个不同的类别,"po","ng","ne“。po:~950 ng:~1200 ne:~30000

如何分割用于执行简历的数据集?我是否正确地假设,对于简历,我应该有一个大致相同的记录为每一个班级,以防止不公平的加权对"ne“类?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-04-28 02:14:14

首先,不,你不需要有同样的不。你班上的案子。并不是所有的数据集都是平衡的。是的,这可能会给出不现实的答案。数据集中的不平衡是一种常见的现象,但处理它的策略很少--

1)重采样数据集

不足抽样-删除多数组别的纪录

过度抽样-在少数族裔类中添加记录

您可以使用SMOTE算法为您做这件事。

2)性能度量

一些指标,如Kappa (或Cohen的kappa),可以很好地工作,在这些度量中,通过数据中类的不平衡来规范化分类的准确性。

3)成本敏感的分类器 Weka有一个CostSensitiveClassifier,它可以包装任何分类器,并应用自定义惩罚矩阵进行失分分类。但这里的挑战是如何确定成本,因为成本应该是域依赖的,而不是数据依赖的。

在交叉验证的情况下,我发现这个链接很有用。http://www.marcoaltini.com/blog/dealing-with-imbalanced-data-undersampling-oversampling-and-proper-cross-validation

希望能帮上忙。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36898040

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档