我正在尝试在一些实时数据上实现朴素贝叶斯算法。我知道贝叶斯的规则,但我不确定如何在我的data.My数据上实现,因为below.There在我的数据中总共有2个标签,它们都是ok,欺诈和标记为未知的测试数据。我需要通过应用朴素贝叶斯Algorithm.How将所有未知记录分类为ok或欺诈。我是否可以做到这一点?请谁来帮帮我。
1,v1,p1,182,1665,unkn
2,v2,p1,3072,8780,ok
3,v3,p1,20393,76990,ok
4,v4,p1,112,1100,fraud
5,v3,p1,6164,20260,unkn
6,v5,p2,104,1155,ok
7,v6,p2,350,5680,unkn
8,v7,p2,200,4010,ok
9,v8,p2,233,2855,unkn
10,v9,p2,118,1175,unkn贝叶斯规则:
未知为ok的后验概率= ok的先验概率*给定ok的未知的可能性。
未知是欺诈的后验概率=欺诈的先验概率*给定欺诈的未知可能性。
发布于 2012-11-16 20:28:03
我假设行1,v1,p1,182,1665,unkn被解释为:
1,标签=某些标识符p1,182,1665 =数据的要素pointunkn = v1,在本例中为未知的记住这个符号,您的训练数据由标签为ok或fraud的所有行组成,您的测试数据是其余的。你必须计算先验和条件似然:
ok是ok示例在训练数据中所占的比例。这同样适用于fraudf,例如v1或p1,它的可能性给定ok是包含该特征的训练数据中ok示例的比例。例如,4个ok示例中有2个包含p1,概率为0.5。对于每个示例,将您在步骤2中为其所有功能计算的概率相乘。将结果乘以步骤1中的概率,以获得您的示例属于特定类的(联合)概率。
注意事项:
https://stackoverflow.com/questions/13416109
复制相似问题