首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >分类树中“实数”与“判定值”的混淆

分类树中“实数”与“判定值”的混淆
EN

Data Science用户
提问于 2021-09-13 18:27:08
回答 2查看 95关注 0票数 2

我正在阅读XGBoost指南,我对它在决策树的评分系统和分类/回归树之间的区别感到困惑。我挂的那一段是:

CART 分类回归树与决策树略有不同,在决策树中叶只包含决策值。在CART中,真正的分数是与每一片叶子相关联的,这给了我们更丰富的解释,超越了分类。

我一点也不确定这意味着什么。我对回归决策树的理解是,每个叶都有一个值,它是分配给该叶的所有训练示例的平均值(在遵循树的结构之后)。在一个多树模型中,当我们预测一个新的例子时,我们在每棵树中导航它,然后将它最后的叶子值进行平均值;这个平均值是最后的预测。

我的问题是:

( a)我对决策树的理解正确吗?

在XGBoost和LightGBM使用的购物车树中有什么不同的操作?从所引用的段落下方的绘图来看,似乎每一片叶子都有一个“预测分数”,这个分数在整个树上求和,然后以某种方式被处理成最终的回归预测。

EN

回答 2

Data Science用户

发布于 2021-09-13 18:54:23

我不确定这些术语是否是通用的,但是xgboost文档似乎在考虑一个“决策树”,它具体地意味着所做的预测是硬类预测(叶子中的训练数据中的类的模式),而不是概率预测,因此不能用于回归任务。

另一方面,回归树一般平均每个叶的目标值,这也导致了分类树的有用的“软”分类器版本。随机森林和AdaBoosting可能使用硬投票或软投票,但是梯度提升要求每个学习者都是一个回归者(适合伪残差),因此XGBoost和LightGBM都使用这些方法。

票数 1
EN

Data Science用户

发布于 2021-09-14 16:54:01

许多所谓的“分类”模型实际上预测概率,然后有一些决策函数将概率映射到一个类别。常见的决策函数是选择概率最高的类别,但您可以选择任何阈值。您甚至可以选择不使用阈值并对概率输出进行直接评估。这给出了更丰富的解释,因为它允许,作为两个例子,风险估计和校准。

Frank (Vanderbilt教授)有两篇关于这方面的博客文章值得一读。

分类精度和其他不连续的不正确的精度评分规则造成的损坏

分类与预测

相关的栈,交叉验证 (统计),更倾向于谈论这个主题而不是数据科学。您可能对在那里寻找“正确的得分规则”。感兴趣,我有几篇关于这个主题的文章。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/102050

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档