我所了解到的关于弱学习者的一切(特别是与AdaBoost有关)都表明,对于任何训练数据的分布,他们必须具有< 1/2的误差。我想我一定是误解了这一点,所以如果有人能指出我以下逻辑中的缺陷,我将不胜感激:
假设一个弱学习者只对一个例子进行了错误分类(称之为x )。然后,考虑在该示例x上具有100%权重的分布,在每个其他示例上具有0%权重。显然,对于这种分布,弱学习者的误差为1,即> 1/2。根据我对定义的理解,这意味着它不是真正的弱学习者。因此,如果一个弱学习者错误地分类了一段样本数据,那么对于任何分布,它的误差都不会小于1/2。但这意味着一个弱学习者必须是完美的,我知道这与提升弱学习者的整体观点背道而驰,只是疯狂的言论。
所以,我一定是误解了对于弱学习者来说,任何分布的误差< 1/2意味着什么。"any“到底是什么意思?
发布于 2016-05-23 00:24:27
在两个班级的问题中,一个随机的学习者将error=0.5。实际上,这是最严重的错误,因为您可以将每个错误超过0.5的学习器编辑为完全相反的错误-这意味着相反的学习器错误将是1-(第一个学习器的错误)。此外,在1个例子上测量误差是非常有问题的,并且可能不能正确地表示真实的误差。因此,如果最坏的误差是0.5 (正如我们所看到的,我们可以使任何学习者的误差小于0.5),提升需要每个弱学习者更多的准确性,以便将它们组合在一起并“增强”。
https://stackoverflow.com/questions/37266031
复制相似问题