文章/答案/技术大牛

发布

社区首页 >问答首页 >机器学习:平衡训练集，但高度不平衡预测集？如何调整？

问机器学习:平衡训练集，但高度不平衡预测集？如何调整？
EN

Data Science用户

提问于 2019-07-21 15:52:33

回答 1查看 91关注 0票数 3

我正试图在CEO演讲数据集中培养一个检测性别的模型。以下是我拥有的数据集：

最终数据集: 20K首席执行官的声音分析(约95%的男性)
测试数据集(?)：1K首席执行官的声音分析从最后的数据集，减少不平衡，因为我增加了更多的女性(80%的男性)。
培训数据:从有声读物和TED演讲中分析6K个声音(55%男性)。

目前，我通过训练和拆分数据集#3 (70%，30%)来尝试不同的模型。该方法具有较好的精度(95%)。然而，当我将经过训练的模型应用于数据集#2时，我的准确率为85%。

我不知道该怎么办。我是否应该在培训数据集中对妇女进行低采样，使其分布更加类似于最终数据集？

machine-learning

python

scikit-learn

class-imbalance

回答 1

Data Science用户

回答已采纳

发布于 2019-07-23 00:31:30

抽样过多或过少应该是你的第二选择。目前，处理类不平衡的最佳方法是使用weights参数来支持sklearn和keras分类器(例如，参见DecisionTreeClassifier)。

在一般情况下，我建议将重点放在F1评分、AUC和用于评估模型性能的混淆矩阵上，因为在这种情况下，准确性可能不那么有用。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/56111

复制

相似问题

问机器学习:平衡训练集，但高度不平衡预测集？如何调整？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习:平衡训练集，但高度不平衡预测集？如何调整？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习:平衡训练集，但高度不平衡预测集？如何调整？
EN