首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我的朴素贝叶斯训练数据需要成比例吗?

我的朴素贝叶斯训练数据需要成比例吗?
EN

Stack Overflow用户
提问于 2015-10-28 18:29:56
回答 1查看 231关注 0票数 1

我将以垃圾邮件分类为例。典型的方法是手工分类随机抽样的电子邮件,并使用它们来训练NB分类器。

很好,现在假设我添加了一堆存档的电子邮件,我知道这些邮件不是垃圾邮件。这会不会扭曲我的分类结果,因为现在垃圾邮件的比例:而不是垃圾邮件不再具有代表性?我能想到发生这种事的两种方式:

  • 这些功能变得过于非垃圾邮件沉重。
  • 该算法在分类中隐式使用概率(垃圾邮件)(就像概率(医疗条件)被罕见的医疗条件降低一样,即使检测是阳性的)。

一般来说,更多的训练数据比少的要好,所以如果它没有破坏算法,我想添加它。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-10-28 18:35:23

你可以对所有数据进行培训,而不必担心比例。尽管如此,正如你所观察到的,扭曲比例会扭曲概率并导致不良结果。如果你有20%的垃圾邮件流,并训练一个垃圾邮件过滤器99%的垃圾邮件和1%的好邮件(火腿),你将结束一个超级侵略性过滤器。

解决这一问题的通用方法有两个步骤:

  1. 通过运行具有代表性的数据样本(例如,垃圾邮件过滤场景中的1000封电子邮件),为过滤器添加种子。
  2. 当筛选器遇到其他数据时,只有在筛选器出错时才更新权重。这就是所谓的“错误列车”。

如果你遵循这种方法,你的过滤器不会被突然爆发的垃圾邮件所迷惑,而垃圾邮件恰好包括“喇叭”这个词和真正垃圾邮件的单词。只有在必要的时候,它才会调整,但在错误的时候,它会尽快赶上。这是防止大多数垃圾邮件发送者使用的“贝叶斯中毒”方法的一种方法。他们可以用大量的垃圾来扰乱他们的信息,但是他们只有这么多的方式来描述他们的产品或服务,而这些词总是垃圾邮件。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33398883

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档