我的数据集有5个自变量,每个变量的值为大、中或无以及一个二进制因变量。数据集有67行,拆分为17:50。
我想找出自变量和因变量之间是否有关系,并探讨哪些变量/一组变量对结果的影响最大。
到目前为止,我检查过的大多数解决方案(名义变量关联和Cramér's V)都不支持多个自变量。
发布于 2021-05-19 12:38:33
一种简单、棘手但可能是最好的方法是使用决策树。建立模型后,可以分析树的结构来识别关系。然后,您可以列出特性的重要性,以查看自变量对因变量的影响。
在python中,您可以使用雪橇来实现它。feature_importances_将给您Gini特性和plot_tree()函数的重要性,以查看树的结构。这篇文章也可能会帮助我们了解如何做到这一点。
feature_importances_
plot_tree()
发布于 2021-10-22 10:05:54
有多种方法可以做到这一点,其中包括:-
1.)使用L2正则化来确定5个特性中哪些在预测目标方面贡献更大。
2.)使用基于树和梯度based的模型来计算每个特征的重要程度。这里是一篇使用各种模型计算特性重要性的文章。
3.)使用PCA获得最大方差的特性(尽管我不确定这一点)
4.)使用滑雪板库中的mutual_info_classification来计算特性的重要性。
mutual_info_classification
除此之外,您还可以使用基于过滤器的、基于包装的方法来获得这5个特性的重要性。
https://datascience.stackexchange.com/questions/94637
相似问题