首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >不同的显着变量,但相同的调整R-平方值

不同的显着变量,但相同的调整R-平方值
EN

Data Science用户
提问于 2019-06-10 09:08:44
回答 2查看 90关注 0票数 0

我用3个不同的模型对64个变量进行了多元线性回归:

  1. 对所有64个变量进行多元线性回归
  2. 使用随机森林进行特征选择,然后对所选特征进行多元线性回归。
  3. 逐步线性回归

我实现了相同的调整R平方值对所有三个模型,但不同的重要变量。我该怎么理解呢?我该选哪一种型号?

会感谢您的任何建议!谢谢!

EN

回答 2

Data Science用户

发布于 2019-06-10 10:51:50

似乎移除特性对提出适合的模型并没有多大帮助。特征的显着性差异可能是由于排斥。

你应该尝试的一件事是通过拉索/脊回归来调节。在R中,这可以很容易地由glmnet包实现。这是一个教程。这是最好的特征选择方法,imo,因为背后有一个数学理性(更多的背景见统计学习介绍)。

拉索可以将特征缩小到零(即放下它们)。岭不能将功能缩小到零。试试看。

提示:在具有连续特性的线性回归中,还可以使用poly函数向回归中添加多项式以增加拟合。你也可以看到回归样条是否帮助你处理隐藏的非线性.gam包是一个非常好的开端。这是文档

本书“统计学习导论”以一种非常好的方式涵盖了这些主题,并附带了有用的R示例。这是代码

票数 0
EN

Data Science用户

发布于 2019-11-07 11:08:10

64个变量对于线性回归来说是一个很大的问题,我很担心共线性、相互依赖的变量等等。

虽然一个很好的基本假设是用最少的变量(调整后的R_2为相等)的模型,但我希望你们在这里更深入一些。

您以前是否对预测变量进行过因子分析或PCA,使用组件或因素的简化模型会表现得更强、更易于解释吗?

回归真的不是一个很好的模型,如果你只想扔袋子的话。根据问题背后的动机(正如@Spacedman所指出的),我也会尝试更多的替代模式。

为什么只使用RF进行特征选择,为什么不使用整个回归呢?如果你的目标是预测和预测质量,那么R 2将不是你要看的主要指标,你也可以尝试更多的算法,比如XGboost。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/53512

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档