开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >机器学习模型的数据预处理

问机器学习模型的数据预处理
EN

Data Science用户

提问于 2020-05-21 11:35:46

回答 1查看 88关注 0票数 4

我对如何预处理基于范围的类别(如年龄、肿瘤大小和inv-节点)感到困惑。我应该采取一个平均值的限制，如在- 14.5，24.5等，或做一个热编码的共同域范围。一次热编码会增加no。非常重要的特征。因为，每个属性都有以下共同域：

年龄: 10-19岁、20-29岁、30-39岁、40-49岁、50-59岁、60-69岁、70-79岁、80-89岁、90-99岁.
肿瘤大小: 0-4，5-9，10-14，15-19，20-24，25-29，30-34，35-39，40-44，45-49，50-54，55-59.
inv-节点: 0-2，3-5，6-8，9-11，12-14，15-17，18-20，21-23，24-26，27-29，30-32，33-35，36-39.

machine-learning

EN

回答 1

Data Science用户

发布于 2020-05-21 15:12:03

您绝对不应该使用代表数字的值进行热编码，因为这样可以消除间隔之间的自然顺序。

因此，这些值应该表示为数字：

无论是与平均值的限制确实
或区间的简单整数编码，例如肿瘤大小0-4，5-9，10-14，.表示为0,1,2，.

票数 1

EN

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/74584

复制

相似问题