我是新来的,我在市场分析方面做了很多工作。大多数时候,我收到了一个包含很多变量(10 - 15)的巨大基数,人们问我:根据我们拥有的变量(年龄、性别等),如何解释收入的增长或下降?
我通常通过查看图表并分析每种可能的情况来做这件事,但我真的相信有一种更好的方法来做到这一点。
age sex business_unit year month revenue name
10-20 Male unit_1 2018 1 $100 chloe
20-30 Female unit_2 2019 2 $250 arnold 我在想,是否有一种方法可以将所有可能的变量组合在一起,并给出变量,比如:
age revenue
10-20 -$100 year over year
sex revenue
male -$200 year over year
age sex revenue
10-20 male -$50 year over year 以及其他所有可能的组合。有没有办法做到这一点?用Python?
发布于 2020-01-09 20:02:44
可视化每一对变量之间的关系的一个很好的工具是“corner”模块。
这使您可以绘制每个变量的分布,并查看它们是如何依赖其他变量的。e.g
https://corner.readthedocs.io/en/latest/pages/custom.html

使用‘分位数’关键字,你可以画出数据的第16和第84个百分位数,等等。
发布于 2020-01-09 20:34:29
我建议对您的数据集使用多元线性回归模型
通过这样做,您将获得一个公式,该公式应该根据所有其他变量(如y=c1*x1-c2*x2... )来预测y变量(比如说收入
系数c可以告诉你这个变量对y的影响有多大。因此,在revenue = 2*age + -0.5*sex...对收入有积极双重影响的情况下,性别对收入有负面影响(重要性比age低4倍)
如果你想要所有变量之间的所有关系,你将不得不运行10到15个模型,在每个模型中,y将代表来自年龄,性别,收入等的一些其他变量
您可以查看此link,了解如何使用python实现它
https://stackoverflow.com/questions/59663305
复制相似问题