换句话说,我期待的是预测学生会在失败之前辍学。这些数据包括社会经济状况和其他相关变量。
我尝试过XGB二进制分类(树和森林),但问题是它不会严重地惩罚错误的答案(预测一个学生在成绩上将排在最后3%,但他们实际上是A+学生)。结果是,被预测的学生的平均成绩很低,但是中位成绩并没有那么差--有少数极差的学生降低了平均分,而不是中位数。
我尝试过XGB回归(包括树和森林),但问题是我无法让模型集中在底部的3%。它试图减少所有预测的错误。我不在乎说出A学生和B学生之间的区别,我只需要始终如一地找出最低的3%。
我在想,也许这有助于加强学习,而不是监督,但我对加固一无所知.WOuld有可能建立一个强化模型,其目标是将3%的学生预测的中位成绩降到最低?或者还有其他的机器学习技术能起作用?
发布于 2020-06-17 17:13:05
尝试为回归模型编写自定义丢失函数!
例如,Keras的神经网络支持这一点。请参阅https://stackoverflow.com/q/43818584/745868
(但许多其他库也对此提供支持)
您的自定义丢失函数唯一的特殊之处是,如果min(pred_y,actual_y) >=阈值,它不会将数据点的错误加在一起。
https://datascience.stackexchange.com/questions/76179
复制相似问题