我正在研究一个聚类问题,它有13000个观察和15个特性。数据集中的大约3000个观测在每个特性中都是零的(即3000行中的所有值都为零)。我正试图在此基础上进行聚类。有什么更好的方法来处理它呢?我脑子里没有几件事,但我想弄清楚:
此外,请建议是否有更好的方法来处理同样的问题。
注意:我使用的是k-均值聚类.
发布于 2020-01-22 20:02:38
k (从k-means)增加1。这个额外的值有望成为所有这些错误观测的类别。注:如果你继续使用K-意味着拥有所有这些额外的观察应该是好的。然而,如果您切换到另一种考虑密度的算法(例如均值偏移),那么所有这些额外的观测结果可能会以您意想不到的方式影响您的模型。例如,观察到的[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.1]可能最终会远离所有的0级集群。
发布于 2020-01-22 19:11:42
这是一个数据质量问题,因此它取决于数据集是如何构建的:
当然,我们希望将数据中的实例保留在前一种情况下,而不是在后一种情况下,因为值并不代表实际的数据点,因此它们会给聚类算法带来巨大的偏差。
https://datascience.stackexchange.com/questions/66892
复制相似问题