首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >梯度升压与编码类型

梯度升压与编码类型
EN

Data Science用户
提问于 2020-07-21 16:22:43
回答 1查看 432关注 0票数 4

我正在查看这个材料,我发现了以下声明:

对于这类模型梯度升压机算法,即使排序是任意的而不是单一的热编码,它在计算效率上也是安全的,使用任意整数编码也称为数字编码作为分类变量。

你知道一些支持这一说法的参考资料吗?我知道数字编码比单热编码计算效率更高,但我想知道更多关于它们在梯度增强方法中编码无序范畴变量的等价性的假设。

谢谢!

EN

回答 1

Data Science用户

发布于 2020-07-21 18:49:12

这实际上是基于树的模型的一个特点,在一般情况下,不仅仅是梯度提升树。

不完全是引用,但这篇媒体文章解释了序号编码通常更有效的原因。

关于安全性问题,我认为作者应该说,顺序编码的使用比线性方法更安全,但仍然不是完全安全的。决策树方法有可能在序号编码中找到虚假规则,但它们没有线性方法所做的关于数字语义的强有力假设。

。。。我想知道更多关于它们的等价性来编码无序的范畴变量。。。

任何由一次热编码派生的规则也可以用序数编码来表示,它可能只需要更多的拆分。

为了举例说明,假设您有一个包含可能值foo的范畴变量spamhameggs。一次热编码将创建3个虚拟变量,is_spamis_hamis_eggs.假设任意序数编码指定spam = 1、ham = 2和eggs = 3。

假设OHE决策树在is_eggs = 1上分裂。这可以通过拆分的foo > 2在序号决策树中表示。假设OHE树在is_ham = 1上分裂。序数树需要两个拆分:foo > 1然后是foo < 3

票数 4
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/78092

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档