我一直在尝试使用decision stump作为弱分类器来实现Adaboost,但我不知道如何优先考虑加权未分类实例?
发布于 2015-06-03 19:59:17
决策树桩基本上是一个规则,它指定了一个特征、一个阈值和一个极性。因此,在给定样本的情况下,您必须找到误差最小的一个特征-阈值-极性组合。通常,您计算错误分类数,并将其除以样本数,以获得错误。在Adaboost中使用加权误差,这意味着不是计算错误分类,而是对分配给错误分类样本的权重求和。我希望到目前为止一切都很清楚。
现在,为了在下一轮中对错误分类的样本给予更高的偏好,您可以通过增加错误分类样本的权重或减少正确分类样本的权重来调整分配给这些样本的权重。假设E是您的加权误差,您将错误分类的样本权重乘以值(1-E)/E。由于决策树桩比随机猜测更好,因此E将小于0.5,这意味着(1-E)/E将大于1,因此权重将增加(例如,E= 0.4 => (1-E)/E = 1.5)。另一方面,如果您想要减少正确分类的样本权重,请改用E/(1-E)。但是,不要忘记对权重进行归一化,使它们的总和为1。这对于计算加权误差很重要。
https://stackoverflow.com/questions/30221964
复制相似问题