首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >向随机林中添加变量会降低性能

向随机林中添加变量会降低性能
EN

Data Science用户
提问于 2018-12-19 17:39:33
回答 1查看 184关注 0票数 1

假设你有6个变量。

使用前5个变量的随机森林回归的R^2为0.1.另一种只使用第六个变量的回归得到了0.3的R^2。前5个变量均与变量6无关(绝对值<0.1相关)。

为什么所有6个变量的回归R^2为0.31或0.29,即在第6个变量中添加前5个变量只会显著提高绩效0.01,甚至降低绩效?

请注意,所有模型都是通过随机搜索、交叉验证调优深度、特性数量、分割和树数进行调优的。

EN

回答 1

Data Science用户

发布于 2018-12-19 17:49:31

即使你的变量是线性不相关的,它们也可能是非线性的。仅用相关系数来表示数据是无关的,对于非线性回归来说是不够的。

尽管如此,如果变量不能从目标数据中解释任何新的内容,那么向模型中添加变量可能不会改善最终结果。这似乎就是这样的情况。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/42894

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档