文章/答案/技术大牛

发布

社区首页 >问答首页 >我的朴素贝叶斯训练数据需要成比例吗？

问我的朴素贝叶斯训练数据需要成比例吗？
EN

Stack Overflow用户

提问于 2015-10-28 18:29:56

回答 1查看 231关注 0票数 1

我将以垃圾邮件分类为例。典型的方法是手工分类随机抽样的电子邮件，并使用它们来训练NB分类器。

很好，现在假设我添加了一堆存档的电子邮件，我知道这些邮件不是垃圾邮件。这会不会扭曲我的分类结果，因为现在垃圾邮件的比例:而不是垃圾邮件不再具有代表性？我能想到发生这种事的两种方式：

这些功能变得过于非垃圾邮件沉重。
该算法在分类中隐式使用概率(垃圾邮件)(就像概率(医疗条件)被罕见的医疗条件降低一样，即使检测是阳性的)。

一般来说，更多的训练数据比少的要好，所以如果它没有破坏算法，我想添加它。

bayesian

training-data

naivebayes

machine-learning

classification

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-10-28 18:35:23

你可以对所有数据进行培训，而不必担心比例。尽管如此，正如你所观察到的，扭曲比例会扭曲概率并导致不良结果。如果你有20%的垃圾邮件流，并训练一个垃圾邮件过滤器99%的垃圾邮件和1%的好邮件(火腿)，你将结束一个超级侵略性过滤器。

解决这一问题的通用方法有两个步骤：

通过运行具有代表性的数据样本(例如，垃圾邮件过滤场景中的1000封电子邮件)，为过滤器添加种子。
当筛选器遇到其他数据时，只有在筛选器出错时才更新权重。这就是所谓的“错误列车”。

如果你遵循这种方法，你的过滤器不会被突然爆发的垃圾邮件所迷惑，而垃圾邮件恰好包括“喇叭”这个词和真正垃圾邮件的单词。只有在必要的时候，它才会调整，但在错误的时候，它会尽快赶上。这是防止大多数垃圾邮件发送者使用的“贝叶斯中毒”方法的一种方法。他们可以用大量的垃圾来扰乱他们的信息，但是他们只有这么多的方式来描述他们的产品或服务，而这些词总是垃圾邮件。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33398883

复制

相似问题

问我的朴素贝叶斯训练数据需要成比例吗？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我的朴素贝叶斯训练数据需要成比例吗？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我的朴素贝叶斯训练数据需要成比例吗？
EN