首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >机器学习:平衡训练集,但高度不平衡预测集?如何调整?

机器学习:平衡训练集,但高度不平衡预测集?如何调整?
EN

Data Science用户
提问于 2019-07-21 15:52:33
回答 1查看 91关注 0票数 3

我正试图在CEO演讲数据集中培养一个检测性别的模型。以下是我拥有的数据集:

  1. 最终数据集: 20K首席执行官的声音分析(约95%的男性)
  2. 测试数据集(?):1K首席执行官的声音分析从最后的数据集,减少不平衡,因为我增加了更多的女性(80%的男性)。
  3. 培训数据:从有声读物和TED演讲中分析6K个声音(55%男性)。

目前,我通过训练和拆分数据集#3 (70%,30%)来尝试不同的模型。该方法具有较好的精度(95%)。然而,当我将经过训练的模型应用于数据集#2时,我的准确率为85%。

我不知道该怎么办。我是否应该在培训数据集中对妇女进行低采样,使其分布更加类似于最终数据集?

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-07-23 00:31:30

抽样过多或过少应该是你的第二选择。目前,处理类不平衡的最佳方法是使用weights参数来支持sklearn和keras分类器(例如,参见DecisionTreeClassifier)。

在一般情况下,我建议将重点放在F1评分、AUC和用于评估模型性能的混淆矩阵上,因为在这种情况下,准确性可能不那么有用。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/56111

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档