
我对如何预处理基于范围的类别(如年龄、肿瘤大小和inv-节点)感到困惑。我应该采取一个平均值的限制,如在- 14.5,24.5等,或做一个热编码的共同域范围。一次热编码会增加no。非常重要的特征。因为,每个属性都有以下共同域:
发布于 2020-05-21 15:12:03
您绝对不应该使用代表数字的值进行热编码,因为这样可以消除间隔之间的自然顺序。
因此,这些值应该表示为数字:
https://datascience.stackexchange.com/questions/74584
复制相似问题