如果我想通过基于树的算法(如XGBoost )来训练一个回归模型。假设x1、x2、x3、x4、x5和目标y有5个特征,一些专家认为x2减去x3与y高度相关,如果把x2-x3作为模型的第六个特征,还是XGBoost只将x1~x5放在模型中就能自动学习。
正如我所知,线性模式可以从特征中学习公式,基于树的方法如何?如果基于树的也可以做同样的事情,那么数据的大小重要吗?
发布于 2021-11-18 13:39:16
XGBoost不会单独学习“交互”。特征生成通常用于增强X的解释能力。通常检查和使用x_n - x_k或x_n / x_k。还有一些特性生成工具,例如用于Python的“特性工具”。
为了找出哪种交互作用最有解释力,您可以做一件事,在所有可能的交互(一个接一个交互,每个交互都是一个浅浅的模型)上,只将几个分裂(三个左右)适合树,并检查每种情况的预测(例如MSE、MAE),例如:
您可以只保留那些具有“高”解释能力的交互,以避免在模型中有大量的特性。
https://datascience.stackexchange.com/questions/104261
复制相似问题