我正在探索用python对某些类别数据进行聚类的可能性。我目前有8个特点,每一个约3-10级。
正如我所理解的那样,kmeans和K模的一次热编码都可以在这个框架中使用,kmeans可能会变得不太理想,由于维度问题的诅咒,大量的特性/级别组合会使kmeans变得不太理想。
这是正确的吗?
目前,我将遵循kmeans路径,因为它将使我能够灵活地加入一些数值特征,并且计算轮廓统计和评估最优簇数似乎要容易得多。
这有道理吗?你对哪种方法比另一种方法更可取的情况有什么建议吗?
谢谢
发布于 2019-05-18 19:51:38
对于分类属性和连续属性,也有使用k模式方法的变体。
K-模比单一热+k-方法有一个很大的优势:它是可解释的.每个集群都有一个显式的原型分类值。对于k-均值,由于SSQ目标,单热变量在值之间的误差最小。这是不可取的。
发布于 2019-09-12 15:32:18
请参阅黄(“Kmodes”一书作者)的论文。http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.134.83&rep=rep1&type=pdf
为了满足您对数值和分类属性的需求,请查看k-原型方法,它将kmodes和kmodes与使用平衡权重因子结合在一起。(再一次在论文中解释)
https://stackoverflow.com/questions/56171837
复制相似问题