首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >理解朴素贝叶斯

理解朴素贝叶斯
EN

Stack Overflow用户
提问于 2016-05-09 14:19:02
回答 2查看 348关注 0票数 3

我环顾四周,似乎找不到这个问题的答案:

如果我把朴素-贝叶斯训练成一些数据的分类器。然后我将使用这些训练数据作为测试数据。我不应该得到100%的分类成功吗?感谢您的阅读!

编辑:我似乎激发了一场超出我理解水平的讨论。因此,我不认为应该由我来扮演“接受”答案的角色。不过,我很感谢你的意见,我会阅读所有的答案。

EN

回答 2

Stack Overflow用户

发布于 2016-05-09 20:25:24

实际上,尽管被接受了答案,但在这种情况下,@flyingmeatball的答案(至少部分)是错误的。它描述了相关的现象,但显然不是给出的关键现象。

您所描述的是一个案例,您期望您的模型具有100%的训练准确性,但它没有。这与“数据不足以表达现象”无关--对于高generalization错误来说,这是正确的,而不是训练一个

小于100%的训练误差意味着,数据本身可能太吵,无法建模(就像flyingmeatball建议的那样),但实际上,对于训练集,这是的情况,当且仅当有两个完全相同的点具有不同的标签。如果不是这种情况(而且可能不是这样),那么实际的“问题”是您所选择的模型有一些内部偏差。简单地说--把它想象成关于数据的假设,或者甚至约束,即使数据显然没有遵循,模型也不会改变这些约束。特别是,朴素贝叶斯有两个这样的假设:

  1. 特征是独立的,这意味着标签和多个特征之间没有关联,没有重要的联系。如果你的特征是风和温度,朴素的贝叶斯会认为它可以根据温度本身做出好的决定,例如假设“好的温度是20度左右”,风也是一样的,例如“最多10公里/小时”。它将无法找到基于这两个值的关系,例如“温度减去风速至少为30",或者类似的东西。
  2. 它假设每个特性上的值都是特定的分布--通常这是MultiNomial分布或高斯分布。这些都是不错的发行版,但是很多特性都没有遵循它们。例如,如果你的功能是“人们在我的杂货店买东西的时间”(比如你把它当作一个连续变量,精确地用微秒等来衡量),你会注意到,你有两个“高峰时间”--一个在早上,一个在晚上,因此朴素的贝斯会做一份可怕的工作来拟合一个高斯,中午才会有一个峰值!同样,错误的假设会导致错误的决定。

那麽,我们为何要这样假设呢?由于许多原因,其中一个原因是,因为我们关心的是泛化而不是训练,因此它是一种防止模型过度适应的方法,而代价是“不适当”的训练集。这也有助于处理噪音,简化优化,并使许多其他美妙的事情:-)

希望这能有所帮助。

票数 2
EN

Stack Overflow用户

发布于 2016-05-09 14:24:35

不是的。并不是所有数据的可变性都可以在您所选择的特性中解释。想象一下,你正在分类今天是否是打网球的好天气。你的特征是温度,风向,精确性。这些可能是很好的描述,但你并没有训练是否有一个游行在城里!在阅兵式的日子里,网球场被封锁了,所以即使你的特征在解释已知数据方面做得很好,但还是有一些不符合特征的离群点。

一般来说,数据的随机性是无法100%捕捉到的。

下面的评论更新

问题是,在同一数据集上进行的培训和测试是否会100%准确,我认为我们都认为这是行不通的(他们没有问NB的假设是什么)。下面是一个示例数据集,演示了上述场景:

代码语言:javascript
复制
import pandas as pd
import numpy as np
from sklearn.naive_bayes import GaussianNB

gnb = GaussianNB()

df = pd.DataFrame([[1,1,0],[1,0,0],[0,0,1],[1,0,1],[1,1,0]], columns = ['hot','windy','rainy'])
targets = [1,1,0,0,0]
preds = gnb.fit(df, targets).predict(df)

print preds
array([1, 1, 0, 0, 1])

注意,第一种情况和最后一种情况是相同的,但是分类器忽略了对最后一种情况的预测。这是因为手头的数据并不总是完美地描述伴随的分类。关于NB还有许多其他的假设,它们也可以描述失败的情况(您在下面非常出色地指出了这一点),但是我的目标只是想出一个快速的演示,他们希望能够理解并回答这个问题。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37118156

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档