我正试图在CEO演讲数据集中培养一个检测性别的模型。以下是我拥有的数据集:
目前,我通过训练和拆分数据集#3 (70%,30%)来尝试不同的模型。该方法具有较好的精度(95%)。然而,当我将经过训练的模型应用于数据集#2时,我的准确率为85%。
我不知道该怎么办。我是否应该在培训数据集中对妇女进行低采样,使其分布更加类似于最终数据集?
发布于 2019-07-23 00:31:30
抽样过多或过少应该是你的第二选择。目前,处理类不平衡的最佳方法是使用weights参数来支持sklearn和keras分类器(例如,参见DecisionTreeClassifier)。
在一般情况下,我建议将重点放在F1评分、AUC和用于评估模型性能的混淆矩阵上,因为在这种情况下,准确性可能不那么有用。
https://datascience.stackexchange.com/questions/56111
复制相似问题