文章/答案/技术大牛

发布

社区首页 >问答首页 >WEKA分类器评价

问WEKA分类器评价
EN

Stack Overflow用户

提问于 2016-04-27 18:28:40

回答 1查看 422关注 0票数 0

我试着在WEKA中使用10倍的CV来评估分类器的性能。我有三万二千张唱片，分成三个不同的类别，"po"，"ng"，"ne“。po：~950 ng：~1200 ne：~30000

如何分割用于执行简历的数据集？我是否正确地假设，对于简历，我应该有一个大致相同的记录为每一个班级，以防止不公平的加权对"ne“类？

classification

weka

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-04-28 02:14:14

首先，不，你不需要有同样的不。你班上的案子。并不是所有的数据集都是平衡的。是的，这可能会给出不现实的答案。数据集中的不平衡是一种常见的现象，但处理它的策略很少--

1)重采样数据集

不足抽样-删除多数组别的纪录

过度抽样-在少数族裔类中添加记录

您可以使用SMOTE算法为您做这件事。

2)性能度量

一些指标，如Kappa (或Cohen的kappa)，可以很好地工作，在这些度量中，通过数据中类的不平衡来规范化分类的准确性。

3)成本敏感的分类器 Weka有一个CostSensitiveClassifier，它可以包装任何分类器，并应用自定义惩罚矩阵进行失分分类。但这里的挑战是如何确定成本，因为成本应该是域依赖的，而不是数据依赖的。

在交叉验证的情况下，我发现这个链接很有用。http://www.marcoaltini.com/blog/dealing-with-imbalanced-data-undersampling-oversampling-and-proper-cross-validation

希望能帮上忙。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36898040

复制

相似问题

问WEKA分类器评价
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问WEKA分类器评价EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问WEKA分类器评价
EN