首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >机器学习模型的数据预处理

机器学习模型的数据预处理
EN

Data Science用户
提问于 2020-05-21 11:35:46
回答 1查看 88关注 0票数 4

我对如何预处理基于范围的类别(如年龄、肿瘤大小和inv-节点)感到困惑。我应该采取一个平均值的限制,如在- 14.5,24.5等,或做一个热编码的共同域范围。一次热编码会增加no。非常重要的特征。因为,每个属性都有以下共同域:

  1. 年龄: 10-19岁、20-29岁、30-39岁、40-49岁、50-59岁、60-69岁、70-79岁、80-89岁、90-99岁.
  2. 肿瘤大小: 0-4,5-9,10-14,15-19,20-24,25-29,30-34,35-39,40-44,45-49,50-54,55-59.
  3. inv-节点: 0-2,3-5,6-8,9-11,12-14,15-17,18-20,21-23,24-26,27-29,30-32,33-35,36-39.
EN

回答 1

Data Science用户

发布于 2020-05-21 15:12:03

您绝对不应该使用代表数字的值进行热编码,因为这样可以消除间隔之间的自然顺序。

因此,这些值应该表示为数字:

  • 无论是与平均值的限制确实
  • 或区间的简单整数编码,例如肿瘤大小0-4,5-9,10-14,.表示为0,1,2,.
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/74584

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档