我正在查看这个材料,我发现了以下声明:
对于这类模型梯度升压机算法,即使排序是任意的而不是单一的热编码,它在计算效率上也是安全的,使用任意整数编码也称为数字编码作为分类变量。
你知道一些支持这一说法的参考资料吗?我知道数字编码比单热编码计算效率更高,但我想知道更多关于它们在梯度增强方法中编码无序范畴变量的等价性的假设。
谢谢!
发布于 2020-07-21 18:49:12
这实际上是基于树的模型的一个特点,在一般情况下,不仅仅是梯度提升树。
不完全是引用,但这篇媒体文章解释了序号编码通常更有效的原因。
关于安全性问题,我认为作者应该说,顺序编码的使用比线性方法更安全,但仍然不是完全安全的。决策树方法有可能在序号编码中找到虚假规则,但它们没有线性方法所做的关于数字语义的强有力假设。
。。。我想知道更多关于它们的等价性来编码无序的范畴变量。。。
任何由一次热编码派生的规则也可以用序数编码来表示,它可能只需要更多的拆分。
为了举例说明,假设您有一个包含可能值foo的范畴变量spam、ham、eggs。一次热编码将创建3个虚拟变量,is_spam、is_ham、is_eggs.假设任意序数编码指定spam = 1、ham = 2和eggs = 3。
假设OHE决策树在is_eggs = 1上分裂。这可以通过拆分的foo > 2在序号决策树中表示。假设OHE树在is_ham = 1上分裂。序数树需要两个拆分:foo > 1然后是foo < 3
https://datascience.stackexchange.com/questions/78092
复制相似问题