对于条件无关的特征f_i,朴素贝叶斯分类给出了分类器
Classifier(f) := \arg \max_{k} P(C=k) · ∏^n_{i=1} P(f_i|C=k)
对于类k。我理解对于高斯朴素贝叶斯,我可以假设正态分布的特征,
Classifier(f) := \arg \max_k P(C=k) · ∏^n_{i=1} \frac{1}{\sqrt{(2πσ_{k,i})}} e^{( -\frac{(f_i - μ_{k,i})^2}{2σ_{k,i})}}
其中μ_{k,i}是类k和Featuref_i的平均值(方差σ_{k,i}的相似)。
但是,在整个过程中,“学习步骤”在哪里呢?
发布于 2020-02-19 01:25:00
我想你是在问朴素贝叶斯(NB)背后的直觉。为了清晰起见,我只考虑明确的特性。高斯NB只是NB在数值特征(假定为正态分布)上的一个应用。
在培训期间,计算每个p(f_i|C_k)的方法是,在与C_k关联的所有其他可能的功能值中,计算特征值f_i与类C_k关联的频率:
f_i和C_k在所有实例中出现的频率来实现的。这就是NB的概括:一个特性出现在一个特定的类中只是一个例子,但是它在A类中出现的比例比类B更多地形成了一个模式。p(f_i|C_k)表示f_i在类C_k中的重要性。当预测新实例的类时:
p(f_i|C_k) (在某种意义上说,某些概率p(f_i|C_k)是低的,而另一些概率是高的,因此它们的产品反映了“赞成”和“反对”的组合),从而将此实例的所有优点和缺点进行权衡。p(f_i|A) > p(f_i|B),也并不意味着f_i是类A的有力指示,因为这可能是因为类A比类B的频率低。在先前的p(C_k)中考虑到了这一点,它比稀有类更重视频繁类(这是Bayes定理的基础)。最后两点说明NB如何利用训练模型的“知识”对任何未知实例进行预测。
https://datascience.stackexchange.com/questions/68292
复制相似问题