首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用朴素贝叶斯算法对未知记录进行分类

如何使用朴素贝叶斯算法对未知记录进行分类
EN

Stack Overflow用户
提问于 2012-11-16 19:55:05
回答 1查看 1.4K关注 0票数 2

我正在尝试在一些实时数据上实现朴素贝叶斯算法。我知道贝叶斯的规则,但我不确定如何在我的data.My数据上实现,因为below.There在我的数据中总共有2个标签,它们都是ok,欺诈和标记为未知的测试数据。我需要通过应用朴素贝叶斯Algorithm.How将所有未知记录分类为ok或欺诈。我是否可以做到这一点?请谁来帮帮我。

代码语言:javascript
复制
1,v1,p1,182,1665,unkn
2,v2,p1,3072,8780,ok
3,v3,p1,20393,76990,ok
4,v4,p1,112,1100,fraud
5,v3,p1,6164,20260,unkn
6,v5,p2,104,1155,ok
7,v6,p2,350,5680,unkn
8,v7,p2,200,4010,ok
9,v8,p2,233,2855,unkn
10,v9,p2,118,1175,unkn

贝叶斯规则:

未知为ok的后验概率= ok的先验概率*给定ok的未知的可能性。

未知是欺诈的后验概率=欺诈的先验概率*给定欺诈的未知可能性。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-11-16 20:28:03

我假设行1,v1,p1,182,1665,unkn被解释为:

  • 1,标签=某些标识符
  • p1,182,1665 =数据的要素point
  • unkn = v1,在本例中为未知的

记住这个符号,您的训练数据由标签为okfraud的所有行组成,您的测试数据是其余的。你必须计算先验和条件似然:

  1. Prior probability of okok示例在训练数据中所占的比例。这同样适用于fraud
  2. For每个特征f,例如v1p1,它的可能性给定ok是包含该特征的训练数据中ok示例的比例。例如,4个ok示例中有2个包含p1,概率为0.5。

对于每个示例,将您在步骤2中为其所有功能计算的概率相乘。将结果乘以步骤1中的概率,以获得您的示例属于特定类的(联合)概率。

注意事项:

  • 将概率乘在一起最终会导致下溢。你可能想要添加这些概率的日志。
  • ,我描述的算法只适用于离散值特征。上面显示的连续值特征(例如,贝叶斯)需要转换为离散值(例如,通过入库),或者您需要在步骤2中想出一些其他方法来估计条件概率。谷歌搜索连续值朴素贝叶斯
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13416109

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档