首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在聚类时,如何处理每个特性中的零行?

在聚类时,如何处理每个特性中的零行?
EN

Data Science用户
提问于 2020-01-22 18:19:26
回答 2查看 1.2K关注 0票数 2

我正在研究一个聚类问题,它有13000个观察和15个特性。数据集中的大约3000个观测在每个特性中都是零的(即3000行中的所有值都为零)。我正试图在此基础上进行聚类。有什么更好的方法来处理它呢?我脑子里没有几件事,但我想弄清楚:

  1. 检查所有为零的行数并删除它们?
  2. 在每个特性中包含零值行,并让聚类算法处理相同的内容?

此外,请建议是否有更好的方法来处理同样的问题。

注意:我使用的是k-均值聚类.

EN

回答 2

Data Science用户

回答已采纳

发布于 2020-01-22 20:02:38

  1. 如果你认为所有的零点都是特征测量误差的结果(即观测值不应该是0,而是它们都是0),那么我会说:保留所有数据,但将k (从k-means)增加1。这个额外的值有望成为所有这些错误观测的类别。
  2. 如果您期望所有的零都是正确的(即这些观测确实都是零),只需保持它们并继续正常进行。

注:如果你继续使用K-意味着拥有所有这些额外的观察应该是好的。然而,如果您切换到另一种考虑密度的算法(例如均值偏移),那么所有这些额外的观测结果可能会以您意想不到的方式影响您的模型。例如,观察到的[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.1]可能最终会远离所有的0级集群。

票数 3
EN

Data Science用户

发布于 2020-01-22 19:11:42

这是一个数据质量问题,因此它取决于数据集是如何构建的:

  • 这两种情况都是有意义的,也就是说,一个观测对所有特征都会有零,而且它会经常发生。
  • 或者,这些都是误差的结果,通常是对这些观测结果完全没有测量。

当然,我们希望将数据中的实例保留在前一种情况下,而不是在后一种情况下,因为值并不代表实际的数据点,因此它们会给聚类算法带来巨大的偏差。

票数 4
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/66892

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档