文章/答案/技术大牛

发布

社区首页 >问答首页 >分类树中“实数”与“判定值”的混淆

问分类树中“实数”与“判定值”的混淆
EN

Data Science用户

提问于 2021-09-13 18:27:08

回答 2查看 95关注 0票数 2

我正在阅读XGBoost指南，我对它在决策树的评分系统和分类/回归树之间的区别感到困惑。我挂的那一段是：

CART 分类回归树与决策树略有不同，在决策树中叶只包含决策值。在CART中，真正的分数是与每一片叶子相关联的，这给了我们更丰富的解释，超越了分类。

我一点也不确定这意味着什么。我对回归决策树的理解是，每个叶都有一个值，它是分配给该叶的所有训练示例的平均值(在遵循树的结构之后)。在一个多树模型中，当我们预测一个新的例子时，我们在每棵树中导航它，然后将它最后的叶子值进行平均值；这个平均值是最后的预测。

我的问题是：

( a)我对决策树的理解正确吗？

在XGBoost和LightGBM使用的购物车树中有什么不同的操作？从所引用的段落下方的绘图来看，似乎每一片叶子都有一个“预测分数”，这个分数在整个树上求和，然后以某种方式被处理成最终的回归预测。

lightgbm

machine-learning

decision-trees

xgboost

回答 2

Data Science用户

发布于 2021-09-13 18:54:23

我不确定这些术语是否是通用的，但是xgboost文档似乎在考虑一个“决策树”，它具体地意味着所做的预测是硬类预测(叶子中的训练数据中的类的模式)，而不是概率预测，因此不能用于回归任务。

另一方面，回归树一般平均每个叶的目标值，这也导致了分类树的有用的“软”分类器版本。随机森林和AdaBoosting可能使用硬投票或软投票，但是梯度提升要求每个学习者都是一个回归者(适合伪残差)，因此XGBoost和LightGBM都使用这些方法。

票数 1

Data Science用户

发布于 2021-09-14 16:54:01

许多所谓的“分类”模型实际上预测概率，然后有一些决策函数将概率映射到一个类别。常见的决策函数是选择概率最高的类别，但您可以选择任何阈值。您甚至可以选择不使用阈值并对概率输出进行直接评估。这给出了更丰富的解释，因为它允许，作为两个例子，风险估计和校准。

Frank (Vanderbilt教授)有两篇关于这方面的博客文章值得一读。

分类精度和其他不连续的不正确的精度评分规则造成的损坏

分类与预测

相关的栈，交叉验证 (统计)，更倾向于谈论这个主题而不是数据科学。您可能对在那里寻找“正确的得分规则”。感兴趣，我有几篇关于这个主题的文章。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/102050

复制

相似问题

问分类树中“实数”与“判定值”的混淆
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分类树中“实数”与“判定值”的混淆EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分类树中“实数”与“判定值”的混淆
EN