当您创建用于线性回归的数据分析的新特性时,很明显,该特性必须与其他特性具有线性关系才更好。
但是对于xgboost来说,做一个新特性的指导方针是什么。1. xgboost的新特性的指导方针是什么? 2.当xgboost拆分出特性的重要性时。如果我想了解这个相关的领域,我应该学习什么?请让我知道链接和书籍或其他旅游胜地。
发布于 2019-08-30 02:14:29
1)对于xgboost的新特性,甚至是线性回归,都没有指导方针。在线性回归中,特性不一定必须与结果线性相关,我们可以使用转换和交互来捕获非线性关系。问题出在哪里?在线性回归中,我们必须手动建模非线性,这是一个痛苦的发现,如果你有更多的功能和没有太多的先验信息。Xgboost (希望)自动找到这些非线性关系。
无论您的模型如何,新特性的“指南”实际上都是由实际问题驱动的。也就是说,你对变量X和Y之间的可能关系有什么了解,而且,是否有更好的方法用你所知道的当前信息来表达这种关系呢?下面是一个例子,假设我有一个问题,我希望预测某个客户拖欠我提供给他们的贷款的可能性。我给了他们过去的付款历史,提供了一系列的付款(如果作出)。我可以利用我在金融学背景上的外部知识,知道过去有一个明确的公式来计算给定的利率,在已知的时间间隔内支付一系列款项。然后,我可以使用这个计算出来的利率作为变量来更好地表示客户的相对风险(而不仅仅是将付款本身进行汇总),因为我知道风险更大的人会因为潜在的违约概率更高而获得更高的利率。另一个例子:在保险方面,我们国家的人在冬天发生的事故通常比夏天少。也许,如果我试图预测事故发生的时间,我会努力包括一些季节性指标变量。
我在这本书中阅读了库恩和约翰逊关于交互特性的一些指导方针,即更重要的特性通常更有可能作为交互(两个或两个以上的预测器的乘积是交互,以防你想知道)。
这个过程通常被称为feature工程,在这里我们基本上可以操作当前的数据,这样模型就可以更容易地学习。
2)可能。对于一些问题,是的,对于其他的问题,不是。维度的诅咒是真实的,肯定会导致过度拟合。我们可以使用xgboost中的特性导入来删除变量并改进它们的模型,但是通常在这样做时,您可能会过度适应培训集,而且您实际上可能会使您的模型比没有做任何事情的情况更糟糕。因此,将此过程封装在交叉验证方案中是非常重要的,以查看功能选择过程是否确实改进了您的模型。利用特征重要性分数进行变量选择的两种流行算法是递归特征消去和置换法 (所谓的“零重要性”)。
3)尽管特征选择、提取和工程是目前研究的热点问题,但这一课题在文献中却没有得到很好的报道。话虽如此,这本书可能对你有用(目前正在进行中的工作,所以它可能不会永远免费):
http://www.feat.engineering/
https://datascience.stackexchange.com/questions/58407
复制相似问题