我不明白为什么我在贡献特性中有一个名为“偏见”的特性。
我读了医生,我发现
在每一列中都有特征及其权重。截距(偏差)特征显示在同一表中
但我不明白拦截偏见在这里意味着什么。
(谢谢你的帮助:)
发布于 2018-04-10 08:33:40
这与ELI5计算权重的方式有关。
XGBoost只为树叶输出分数(您可以通过booster.dump_model(…, with_stats=True)看到它),因此ELI5中的XGBoost解释实现开始为所有树的每个节点重构伪叶分数。如果在此节点级别停止树,则这些伪叶分数基本上是您所期望的平均叶分数,因此,在训练集中,所有子叶的平均值按其覆盖度加权。
该算法也适用于树的根节点,这些树被类似地分配伪叶分数。在根节点级别,这个分数是您最终可能会通过树的平均分数。在所有的树中,所有根节点的得分之和是所有树的平均得分(将应用乙状结肠转化为概率的平均分数)。这就是ELI5在<BIAS>中的应用。
因此,您可以将<BIAS>理解为模型的预期平均分数输出,根据培训集的分布情况。
如果修改<BIAS>参数,则base_score将发生变化(例如,在二进制分类不平衡的情况下,您可能会将默认的0.5更改为更接近目标速率的东西,而<BIAS>应该更接近于0)。
编辑:也许这个博客的视觉解释(baseline相当于<BIAS>) https://medium.com/applied-data-science/new-r-package-the-xgboost-explainer-51dd7d1aa211更清晰
https://stackoverflow.com/questions/49402701
复制相似问题