我将以垃圾邮件分类为例。典型的方法是手工分类随机抽样的电子邮件,并使用它们来训练NB分类器。
很好,现在假设我添加了一堆存档的电子邮件,我知道这些邮件不是垃圾邮件。这会不会扭曲我的分类结果,因为现在垃圾邮件的比例:而不是垃圾邮件不再具有代表性?我能想到发生这种事的两种方式:
一般来说,更多的训练数据比少的要好,所以如果它没有破坏算法,我想添加它。
发布于 2015-10-28 18:35:23
你可以对所有数据进行培训,而不必担心比例。尽管如此,正如你所观察到的,扭曲比例会扭曲概率并导致不良结果。如果你有20%的垃圾邮件流,并训练一个垃圾邮件过滤器99%的垃圾邮件和1%的好邮件(火腿),你将结束一个超级侵略性过滤器。
解决这一问题的通用方法有两个步骤:
如果你遵循这种方法,你的过滤器不会被突然爆发的垃圾邮件所迷惑,而垃圾邮件恰好包括“喇叭”这个词和真正垃圾邮件的单词。只有在必要的时候,它才会调整,但在错误的时候,它会尽快赶上。这是防止大多数垃圾邮件发送者使用的“贝叶斯中毒”方法的一种方法。他们可以用大量的垃圾来扰乱他们的信息,但是他们只有这么多的方式来描述他们的产品或服务,而这些词总是垃圾邮件。
https://stackoverflow.com/questions/33398883
复制相似问题