首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在有很多变量的情况下进行智能数据分析

如何在有很多变量的情况下进行智能数据分析
EN

Stack Overflow用户
提问于 2020-01-09 19:47:30
回答 2查看 70关注 0票数 0

我是新来的,我在市场分析方面做了很多工作。大多数时候,我收到了一个包含很多变量(10 - 15)的巨大基数,人们问我:根据我们拥有的变量(年龄、性别等),如何解释收入的增长或下降?

我通常通过查看图表并分析每种可能的情况来做这件事,但我真的相信有一种更好的方法来做到这一点。

代码语言:javascript
复制
age   sex     business_unit year  month revenue name  
10-20 Male    unit_1       2018    1     $100   chloe  
20-30 Female  unit_2       2019    2     $250   arnold  

我在想,是否有一种方法可以将所有可能的变量组合在一起,并给出变量,比如:

代码语言:javascript
复制
age    revenue   
10-20  -$100    year over year  

sex  revenue  
male -$200   year over year  

age   sex   revenue   
10-20 male   -$50   year over year  

以及其他所有可能的组合。有没有办法做到这一点?用Python?

EN

回答 2

Stack Overflow用户

发布于 2020-01-09 20:02:44

可视化每一对变量之间的关系的一个很好的工具是“corner”模块。

这使您可以绘制每个变量的分布,并查看它们是如何依赖其他变量的。e.g

https://corner.readthedocs.io/en/latest/pages/custom.html

使用‘分位数’关键字,你可以画出数据的第16和第84个百分位数,等等。

票数 1
EN

Stack Overflow用户

发布于 2020-01-09 20:34:29

我建议对您的数据集使用多元线性回归模型

通过这样做,您将获得一个公式,该公式应该根据所有其他变量(如y=c1*x1-c2*x2... )来预测y变量(比如说收入

系数c可以告诉你这个变量对y的影响有多大。因此,在revenue = 2*age + -0.5*sex...对收入有积极双重影响的情况下,性别对收入有负面影响(重要性比age低4倍)

如果你想要所有变量之间的所有关系,你将不得不运行10到15个模型,在每个模型中,y将代表来自年龄,性别,收入等的一些其他变量

您可以查看此link,了解如何使用python实现它

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59663305

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档