文章/答案/技术大牛

发布

社区首页 >问答首页 >不同的显着变量，但相同的调整R-平方值

问不同的显着变量，但相同的调整R-平方值
EN

Data Science用户

提问于 2019-06-10 09:08:44

回答 2查看 90关注 0票数 0

我用3个不同的模型对64个变量进行了多元线性回归：

对所有64个变量进行多元线性回归
使用随机森林进行特征选择，然后对所选特征进行多元线性回归。
逐步线性回归

我实现了相同的调整R平方值对所有三个模型，但不同的重要变量。我该怎么理解呢？我该选哪一种型号？

会感谢您的任何建议！谢谢!

linear-regression

回答 2

Data Science用户

发布于 2019-06-10 10:51:50

似乎移除特性对提出适合的模型并没有多大帮助。特征的显着性差异可能是由于排斥。

你应该尝试的一件事是通过拉索/脊回归来调节。在R中，这可以很容易地由glmnet包实现。这是一个教程。这是最好的特征选择方法，imo，因为背后有一个数学理性(更多的背景见统计学习介绍)。

拉索可以将特征缩小到零(即放下它们)。岭不能将功能缩小到零。试试看。

提示:在具有连续特性的线性回归中，还可以使用poly函数向回归中添加多项式以增加拟合。你也可以看到回归样条是否帮助你处理隐藏的非线性.gam包是一个非常好的开端。这是文档。

本书“统计学习导论”以一种非常好的方式涵盖了这些主题，并附带了有用的R示例。这是代码。

票数 0

Data Science用户

发布于 2019-11-07 11:08:10

64个变量对于线性回归来说是一个很大的问题，我很担心共线性、相互依赖的变量等等。

虽然一个很好的基本假设是用最少的变量(调整后的R_2为相等)的模型，但我希望你们在这里更深入一些。

您以前是否对预测变量进行过因子分析或PCA，使用组件或因素的简化模型会表现得更强、更易于解释吗？

回归真的不是一个很好的模型，如果你只想扔袋子的话。根据问题背后的动机(正如@Spacedman所指出的)，我也会尝试更多的替代模式。

为什么只使用RF进行特征选择，为什么不使用整个回归呢？如果你的目标是预测和预测质量，那么R 2将不是你要看的主要指标，你也可以尝试更多的算法，比如XGboost。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/53512

复制

相似问题

问不同的显着变量，但相同的调整R-平方值
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不同的显着变量，但相同的调整R-平方值EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不同的显着变量，但相同的调整R-平方值
EN