首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >一次热编码+分类数据的kmodes?

一次热编码+分类数据的kmodes?
EN

Stack Overflow用户
提问于 2019-05-16 15:19:17
回答 2查看 8.8K关注 0票数 6

我正在探索用python对某些类别数据进行聚类的可能性。我目前有8个特点,每一个约3-10级。

正如我所理解的那样,kmeans和K模的一次热编码都可以在这个框架中使用,kmeans可能会变得不太理想,由于维度问题的诅咒,大量的特性/级别组合会使kmeans变得不太理想。

这是正确的吗?

目前,我将遵循kmeans路径,因为它将使我能够灵活地加入一些数值特征,并且计算轮廓统计和评估最优簇数似乎要容易得多。

这有道理吗?你对哪种方法比另一种方法更可取的情况有什么建议吗?

谢谢

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-05-18 19:51:38

对于分类属性和连续属性,也有使用k模式方法的变体。

K-模比单一热+k-方法有一个很大的优势:它是可解释的.每个集群都有一个显式的原型分类值。对于k-均值,由于SSQ目标,单热变量在值之间的误差最小。这是不可取的。

票数 5
EN

Stack Overflow用户

发布于 2019-09-12 15:32:18

请参阅黄(“Kmodes”一书作者)的论文。http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.134.83&rep=rep1&type=pdf

  1. 他提到,如果我们使用Kmeans +一种热编码,如果分类属性有大量的类别,它将大大增加数据集的大小。这将使Kmeans计算成本很高。所以是的,你关于维度诅咒的想法是正确的。
  2. 而且,集群意味着没有意义,因为0和1不是数据的实际值。另一方面,Kmodes产生的聚类模式是真实的数据,从而使集群具有可解释性。

为了满足您对数值和分类属性的需求,请查看k-原型方法,它将kmodes和kmodes与使用平衡权重因子结合在一起。(再一次在论文中解释)

python中的代码示例

票数 7
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56171837

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档