首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >ID3和C4.5:“增益比”如何规范“增益”?

ID3和C4.5:“增益比”如何规范“增益”?
EN

Stack Overflow用户
提问于 2012-11-05 00:56:13
回答 1查看 3.5K关注 0票数 3

ID3算法采用“信息增益”测度。

C4.5使用的是“增益比”度量,即信息增益除以SplitInfo,而对于记录在不同结果之间平均分配,而对于记录在不同结果之间分配较低的情况下,SplitInfo较高。

我的问题是:

这如何帮助解决信息获取倾向于分裂和许多结果的问题?我看不出原因。SplitInfo甚至没有考虑到结果的数量,只考虑了拆分中记录的分布情况。

很可能有一个很低的数量的结果(比如说2),并且记录在这两个结果之间平均分配。在这种情况下,SplitInfo很高,增益比很低,结果很少的分裂不太可能被C4.5所选择。

另一方面,结果的数量可能较少,但分布却很不均匀。在这种情况下,SplitInfo低,增益比高,有许多结果的分裂更有可能被选择。

我遗漏了什么?

EN

回答 1

Stack Overflow用户

发布于 2012-11-09 05:49:06

SplitInfo甚至没有考虑到结果的数量,只考虑了拆分中记录的分布情况。

确实考虑到了的结果数量。(即使它也依赖于分发,正如您所注意到的)。您的比较是在具有相同(“低”)结果数的两种情况下进行的,因此它不可能说明SplitInfo如何随着结果的变化而变化。

考虑以下3种情况,为了便于比较,所有情况都是均匀分布的:

  • 分布均匀的10种可能的结果 SplitInfo = -10*(1/10*log2(1/10)) = 3.32
  • 分布均匀的100种可能的结果 SplitInfo = -100*(1/100*log2(1/100)) = 6.64
  • 1000种可能的均匀分布的结果 SplitInfo = -1000*(1/1000*log2(1/1000)) = 9.97

因此,如果您必须在3种可能的拆分场景之间进行选择,只使用Information Gain (就像在ID3中那样),则将选择后者。但是,使用SplitInfoGainRatio中应该很清楚,随着选择的数量增加,SplitInfo也会上升,GainRatio也会下降。

所有这些都是用均匀分布的分裂假设来解释的。然而,即使在分布不均匀的情况下,上述情况仍然成立.随着可能的结果越来越多,SplitInfo会变得更高。是的,如果我们保持可能的结果数不变并改变结果分布,那么SplitInfo就会有一些变化。但Information Gain也会。

票数 7
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13224649

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档