文章/答案/技术大牛

发布

社区首页 >问答首页 >如何识别5个分类自变量与一个二元因变量之间是否存在关系？

问如何识别5个分类自变量与一个二元因变量之间是否存在关系？
EN

Data Science用户

提问于 2021-05-19 08:57:26

回答 2查看 333关注 0票数 3

我的数据集有5个自变量，每个变量的值为大、中或无以及一个二进制因变量。数据集有67行，拆分为17:50。

我想找出自变量和因变量之间是否有关系，并探讨哪些变量/一组变量对结果的影响最大。

到目前为止，我检查过的大多数解决方案(名义变量关联和Cramér's V)都不支持多个自变量。

statistics

categorical-data

machine-learning

回答 2

Data Science用户

发布于 2021-05-19 12:38:33

一种简单、棘手但可能是最好的方法是使用决策树。建立模型后，可以分析树的结构来识别关系。然后，您可以列出特性的重要性，以查看自变量对因变量的影响。

在python中，您可以使用雪橇来实现它。feature_importances_将给您Gini特性和plot_tree()函数的重要性，以查看树的结构。这篇文章也可能会帮助我们了解如何做到这一点。

票数 1

Data Science用户

发布于 2021-10-22 10:05:54

有多种方法可以做到这一点，其中包括：-

1.)使用L2正则化来确定5个特性中哪些在预测目标方面贡献更大。

2.)使用基于树和梯度based的模型来计算每个特征的重要程度。这里是一篇使用各种模型计算特性重要性的文章。

3.)使用PCA获得最大方差的特性(尽管我不确定这一点)

4.)使用滑雪板库中的mutual_info_classification来计算特性的重要性。

除此之外，您还可以使用基于过滤器的、基于包装的方法来获得这5个特性的重要性。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/94637

复制

相似问题

问如何识别5个分类自变量与一个二元因变量之间是否存在关系？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何识别5个分类自变量与一个二元因变量之间是否存在关系？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何识别5个分类自变量与一个二元因变量之间是否存在关系？
EN