我试着在WEKA中使用10倍的CV来评估分类器的性能。我有三万二千张唱片,分成三个不同的类别,"po","ng","ne“。po:~950 ng:~1200 ne:~30000
如何分割用于执行简历的数据集?我是否正确地假设,对于简历,我应该有一个大致相同的记录为每一个班级,以防止不公平的加权对"ne“类?
发布于 2016-04-28 02:14:14
首先,不,你不需要有同样的不。你班上的案子。并不是所有的数据集都是平衡的。是的,这可能会给出不现实的答案。数据集中的不平衡是一种常见的现象,但处理它的策略很少--
1)重采样数据集
不足抽样-删除多数组别的纪录
过度抽样-在少数族裔类中添加记录
您可以使用SMOTE算法为您做这件事。
2)性能度量
一些指标,如Kappa (或Cohen的kappa),可以很好地工作,在这些度量中,通过数据中类的不平衡来规范化分类的准确性。
3)成本敏感的分类器 Weka有一个CostSensitiveClassifier,它可以包装任何分类器,并应用自定义惩罚矩阵进行失分分类。但这里的挑战是如何确定成本,因为成本应该是域依赖的,而不是数据依赖的。
在交叉验证的情况下,我发现这个链接很有用。http://www.marcoaltini.com/blog/dealing-with-imbalanced-data-undersampling-oversampling-and-proper-cross-validation
希望能帮上忙。
https://stackoverflow.com/questions/36898040
复制相似问题