文章/答案/技术大牛

发布

社区首页 >问答首页 >一次热编码+分类数据的kmodes？

问一次热编码+分类数据的kmodes？
EN

Stack Overflow用户

提问于 2019-05-16 15:19:17

回答 2查看 8.8K关注 0票数 6

我正在探索用python对某些类别数据进行聚类的可能性。我目前有8个特点，每一个约3-10级。

正如我所理解的那样，kmeans和K模的一次热编码都可以在这个框架中使用，kmeans可能会变得不太理想，由于维度问题的诅咒，大量的特性/级别组合会使kmeans变得不太理想。

这是正确的吗？

目前，我将遵循kmeans路径，因为它将使我能够灵活地加入一些数值特征，并且计算轮廓统计和评估最优簇数似乎要容易得多。

这有道理吗？你对哪种方法比另一种方法更可取的情况有什么建议吗？

谢谢

python

cluster-analysis

k-means

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-05-18 19:51:38

对于分类属性和连续属性，也有使用k模式方法的变体。

K-模比单一热+k-方法有一个很大的优势:它是可解释的.每个集群都有一个显式的原型分类值。对于k-均值，由于SSQ目标，单热变量在值之间的误差最小。这是不可取的。

票数 5

Stack Overflow用户

发布于 2019-09-12 15:32:18

请参阅黄(“Kmodes”一书作者)的论文。http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.134.83&rep=rep1&type=pdf

他提到，如果我们使用Kmeans +一种热编码，如果分类属性有大量的类别，它将大大增加数据集的大小。这将使Kmeans计算成本很高。所以是的，你关于维度诅咒的想法是正确的。
而且，集群意味着没有意义，因为0和1不是数据的实际值。另一方面，Kmodes产生的聚类模式是真实的数据，从而使集群具有可解释性。

为了满足您对数值和分类属性的需求，请查看k-原型方法，它将kmodes和kmodes与使用平衡权重因子结合在一起。(再一次在论文中解释)

python中的代码示例

票数 7

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56171837

复制

相似问题

问一次热编码+分类数据的kmodes？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问一次热编码+分类数据的kmodes？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问一次热编码+分类数据的kmodes？
EN