我有一个包含多列的数据集。通过分析,我发现只有一个值的列很少。这些列的所有行中都有0。它是否保存任何信息,还是应该从数据集中删除此类列?
很少有列会像它一样包含100 k行type1和3-4行type2。我是否也应该删除这列,还是让它们保持不变?
注意:目标列与描述的列不同。
发布于 2017-12-17 13:16:06
您所描述的特性被称为低方差特性,通常您应该删除这些特性。这背后的理由是,低方差特征包含的信息较少。有关python中的简明说明和一些代码,请参见这。一定要规范你的容貌。其中一个优点是加快了培训阶段。
https://datascience.stackexchange.com/questions/25742
相似问题