首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于XGBoost回归器的特征工程

基于XGBoost回归器的特征工程
EN

Data Science用户
提问于 2021-11-18 10:35:21
回答 1查看 82关注 0票数 1

如果我想通过基于树的算法(如XGBoost )来训练一个回归模型。假设x1、x2、x3、x4、x5和目标y有5个特征,一些专家认为x2减去x3与y高度相关,如果把x2-x3作为模型的第六个特征,还是XGBoost只将x1~x5放在模型中就能自动学习。

正如我所知,线性模式可以从特征中学习公式,基于树的方法如何?如果基于树的也可以做同样的事情,那么数据的大小重要吗?

EN

回答 1

Data Science用户

发布于 2021-11-18 13:39:16

XGBoost不会单独学习“交互”。特征生成通常用于增强X的解释能力。通常检查和使用x_n - x_kx_n / x_k。还有一些特性生成工具,例如用于Python的“特性工具”

为了找出哪种交互作用最有解释力,您可以做一件事,在所有可能的交互(一个接一个交互,每个交互都是一个浅浅的模型)上,只将几个分裂(三个左右)适合树,并检查每种情况的预测(例如MSE、MAE),例如:

y(x_1-x_2), y(x_1/x_2), ..., y(x_1-x_n), y(x_1/x_n),
y(x_2-x_1), y(x_2/x_1), ..., y(x_2-x_n), y(x_2/x_n),
...

您可以只保留那些具有“高”解释能力的交互,以避免在模型中有大量的特性。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/104261

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档