ID3算法采用“信息增益”测度。
C4.5使用的是“增益比”度量,即信息增益除以SplitInfo,而对于记录在不同结果之间平均分配,而对于记录在不同结果之间分配较低的情况下,SplitInfo较高。
我的问题是:
这如何帮助解决信息获取倾向于分裂和许多结果的问题?我看不出原因。SplitInfo甚至没有考虑到结果的数量,只考虑了拆分中记录的分布情况。
很可能有一个很低的数量的结果(比如说2),并且记录在这两个结果之间平均分配。在这种情况下,SplitInfo很高,增益比很低,结果很少的分裂不太可能被C4.5所选择。
另一方面,结果的数量可能较少,但分布却很不均匀。在这种情况下,SplitInfo低,增益比高,有许多结果的分裂更有可能被选择。
我遗漏了什么?
发布于 2012-11-09 05:49:06
SplitInfo甚至没有考虑到结果的数量,只考虑了拆分中记录的分布情况。
但确实考虑到了的结果数量。(即使它也依赖于分发,正如您所注意到的)。您的比较是在具有相同(“低”)结果数的两种情况下进行的,因此它不可能说明SplitInfo如何随着结果的变化而变化。
考虑以下3种情况,为了便于比较,所有情况都是均匀分布的:
SplitInfo = -10*(1/10*log2(1/10)) = 3.32SplitInfo = -100*(1/100*log2(1/100)) = 6.64SplitInfo = -1000*(1/1000*log2(1/1000)) = 9.97因此,如果您必须在3种可能的拆分场景之间进行选择,只使用Information Gain (就像在ID3中那样),则将选择后者。但是,使用SplitInfo在GainRatio中应该很清楚,随着选择的数量增加,SplitInfo也会上升,GainRatio也会下降。
所有这些都是用均匀分布的分裂假设来解释的。然而,即使在分布不均匀的情况下,上述情况仍然成立.随着可能的结果越来越多,SplitInfo会变得更高。是的,如果我们保持可能的结果数不变并改变结果分布,那么SplitInfo就会有一些变化。但Information Gain也会。
https://stackoverflow.com/questions/13224649
复制相似问题