我正在阅读XGBoost指南,我对它在决策树的评分系统和分类/回归树之间的区别感到困惑。我挂的那一段是:
CART 分类回归树与决策树略有不同,在决策树中叶只包含决策值。在CART中,真正的分数是与每一片叶子相关联的,这给了我们更丰富的解释,超越了分类。
我一点也不确定这意味着什么。我对回归决策树的理解是,每个叶都有一个值,它是分配给该叶的所有训练示例的平均值(在遵循树的结构之后)。在一个多树模型中,当我们预测一个新的例子时,我们在每棵树中导航它,然后将它最后的叶子值进行平均值;这个平均值是最后的预测。
我的问题是:
( a)我对决策树的理解正确吗?
在XGBoost和LightGBM使用的购物车树中有什么不同的操作?从所引用的段落下方的绘图来看,似乎每一片叶子都有一个“预测分数”,这个分数在整个树上求和,然后以某种方式被处理成最终的回归预测。
发布于 2021-09-13 18:54:23
我不确定这些术语是否是通用的,但是xgboost文档似乎在考虑一个“决策树”,它具体地意味着所做的预测是硬类预测(叶子中的训练数据中的类的模式),而不是概率预测,因此不能用于回归任务。
另一方面,回归树一般平均每个叶的目标值,这也导致了分类树的有用的“软”分类器版本。随机森林和AdaBoosting可能使用硬投票或软投票,但是梯度提升要求每个学习者都是一个回归者(适合伪残差),因此XGBoost和LightGBM都使用这些方法。
发布于 2021-09-14 16:54:01
许多所谓的“分类”模型实际上预测概率,然后有一些决策函数将概率映射到一个类别。常见的决策函数是选择概率最高的类别,但您可以选择任何阈值。您甚至可以选择不使用阈值并对概率输出进行直接评估。这给出了更丰富的解释,因为它允许,作为两个例子,风险估计和校准。
Frank (Vanderbilt教授)有两篇关于这方面的博客文章值得一读。
相关的栈,交叉验证 (统计),更倾向于谈论这个主题而不是数据科学。您可能对在那里寻找“正确的得分规则”。感兴趣,我有几篇关于这个主题的文章。
https://datascience.stackexchange.com/questions/102050
复制相似问题