问基于XGBoost回归器的特征工程
EN

Data Science用户

提问于 2021-11-18 10:35:21

回答 1查看 82关注 0票数 1

如果我想通过基于树的算法(如XGBoost )来训练一个回归模型。假设x1、x2、x3、x4、x5和目标y有5个特征，一些专家认为x2减去x3与y高度相关，如果把x2-x3作为模型的第六个特征，还是XGBoost只将x1~x5放在模型中就能自动学习。

正如我所知，线性模式可以从特征中学习公式，基于树的方法如何？如果基于树的也可以做同样的事情，那么数据的大小重要吗？

发布于 2021-11-18 13:39:16

XGBoost不会单独学习“交互”。特征生成通常用于增强X的解释能力。通常检查和使用x_n - x_k或x_n / x_k。还有一些特性生成工具，例如用于Python的“特性工具”。

为了找出哪种交互作用最有解释力，您可以做一件事，在所有可能的交互(一个接一个交互，每个交互都是一个浅浅的模型)上，只将几个分裂(三个左右)适合树，并检查每种情况的预测(例如MSE、MAE)，例如：

y(x_1-x_2), y(x_1/x_2), ..., y(x_1-x_n), y(x_1/x_n),

y(x_2-x_1), y(x_2/x_1), ..., y(x_2-x_n), y(x_2/x_n),

...

您可以只保留那些具有“高”解释能力的交互，以避免在模型中有大量的特性。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/104261

复制

相似问题

问基于XGBoost回归器的特征工程EN