首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >50独立变量问题的好的一般回归技术

50独立变量问题的好的一般回归技术
EN

Data Science用户
提问于 2018-11-07 04:10:55
回答 1查看 59关注 0票数 1

我是数据科学和统计学的新手。我遇到了这个问题,它有50个自变量和一个因变量,并试图找出一个很好的回归技术。下面是我执行的流程图:

数据挖掘->相关矩阵->维数约简-> (维数约简) ->基本线性回归技术。

如果有其他更好的技术或程序,有人能指导我吗?

EN

回答 1

Data Science用户

发布于 2018-11-07 06:10:53

这绝不是一个详尽的答案,但它肯定会给你一个Python的起点-

数据探测

Pandas Profiling开始。它将为您提供变量的HTML报告。如果数据质量良好,它将提供一些关于填充率的见解,这取决于变量类型--每个变量的一些统计数据。

相关矩阵

熊猫分析报告中包含了相关矩阵。但是,如果您希望手工计算,请使用pd.corr()。您可以改变参数以获得不同的相关指标,如‘pearson’, ‘kendall’, ‘spearman’

降维-> PCA (降维)

有很多方法可以做到这一点。记住,如果您只是在寻找精确性,而不关心X是如何影响y的,那么(1)是一个可选的步骤(也适用于(2) )。

  1. 分析相关矩阵,利用VIF对高相关变量进行转储
  2. 因子分析/ PCA降维方法
  3. 使用套索拟合模型,检查系数,00的系数可以被认为是弱指标,可以被消除。
  4. 保持全部50,并使用岭回归并改变alpha参数以精确调整精度(或任何您试图优化的度量)。
  5. 如果模型看起来仍然不稳定,试着用sklearn的多项式特征编写非线性特性,并进行正则化和重复。
  6. 也许在现实世界中最重要的是,询问领域专家他/她认为哪些是重要的变量?

基本线性回归技术

  1. 使用超参数来获得良好的交叉验证/测试分数是基本线性回归模型的关键。
  2. 这里这里尝试尽可能多的技术
票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/40843

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档