首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何识别5个分类自变量与一个二元因变量之间是否存在关系?

如何识别5个分类自变量与一个二元因变量之间是否存在关系?
EN

Data Science用户
提问于 2021-05-19 08:57:26
回答 2查看 333关注 0票数 3

我的数据集有5个自变量,每个变量的值为大、中或无以及一个二进制因变量。数据集有67行,拆分为17:50。

我想找出自变量和因变量之间是否有关系,并探讨哪些变量/一组变量对结果的影响最大。

到目前为止,我检查过的大多数解决方案(名义变量关联和Cramér's V)都不支持多个自变量。

EN

回答 2

Data Science用户

发布于 2021-05-19 12:38:33

一种简单、棘手但可能是最好的方法是使用决策树。建立模型后,可以分析树的结构来识别关系。然后,您可以列出特性的重要性,以查看自变量对因变量的影响。

在python中,您可以使用雪橇来实现它。feature_importances_将给您Gini特性和plot_tree()函数的重要性,以查看树的结构。这篇文章也可能会帮助我们了解如何做到这一点。

票数 1
EN

Data Science用户

发布于 2021-10-22 10:05:54

有多种方法可以做到这一点,其中包括:-

1.)使用L2正则化来确定5个特性中哪些在预测目标方面贡献更大。

2.)使用基于树和梯度based的模型来计算每个特征的重要程度。这里是一篇使用各种模型计算特性重要性的文章。

3.)使用PCA获得最大方差的特性(尽管我不确定这一点)

4.)使用滑雪板库中的mutual_info_classification来计算特性的重要性。

除此之外,您还可以使用基于过滤器的、基于包装的方法来获得这5个特性的重要性。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/94637

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档