首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >SkLearn范畴朴素贝叶斯与朴素贝叶斯数学理论

SkLearn范畴朴素贝叶斯与朴素贝叶斯数学理论
EN

Data Science用户
提问于 2022-09-24 03:45:40
回答 1查看 50关注 0票数 0

基于以下公式的朴素贝叶斯分类

P(C_i|X) = {P(X|C_i)P(C_i) \over P(X)} ... i)

P(X|C_i)是以C_i为条件的X后验概率,P(X)先验概率XC_i代表类。

现在,如果我们有以下数据集:

代码语言:javascript
复制
Age    Income    Buy_computer

Senior   fair        Yes
Junior   fair        Yes
Young    poor        No
Senior   poor        Yes
Junior   fair        No
Young    poor        No

现在,如果我们得到一个新的数据(Age = young,Income= fair),我们需要找出这些数据应该属于哪个类。..。例1)

我们可以使用eq来找出这个类。

我也学过绝对朴素贝叶斯

根据文件,

给定c类的特征i中t类的概率估计为:

P(Xi=t|y=c ; alpha ) = (Ntic + alpha)/(Nc +αni) ...ii)

如示例1所示,我们可以将方程ii转换为

P(年龄=年轻,Income= fair x Buy_computer=?)

然后应用方程I求出P(Age=young,Income=fair)类

然而,我不明白方程二的右手边与方程式一有什么关系)

方程i)也没有任何alpha参数,参数alpha如何影响答案?

谢谢。

EN

回答 1

Data Science用户

回答已采纳

发布于 2022-09-24 09:28:36

Now --如果我们得到一个新的数据(Age = young,Income= fair),我们需要找出这个数据应该属于哪个类。..。例1)

如果一个样本没有标签,你不能把它包括在火车/测试集中,不确定这是不是你在这里的意思,但我想澄清一下,以防万一。话虽如此,在模型经过训练和测试之后,你可以尝试预测它是可行的。

However,我不明白eq ii的右手边是如何与方程式i)相关的。

我认为这里有两件事会引起混乱。

  1. 用于方程i)ii)的表示法是不一致的。我猜你是从不同的来源引用的。我将用滑雪板的符号来回答我的问题。
  2. 您不能将等式i)应用于方程ii)。方程i)是Bayes定理的一种表述,而ii)则是我们关于范畴分布数据集的可能性P(x_i|y)的一个假设。如果我们快速地推导出i)ii)背后的数学,那么CategoricalNBD13之间的关系就会变得更加清楚。

假设我们有一个带有标签y的特性集D17。考虑到这个特性集y,我们希望训练一个模型来计算输出X的可移植性,因为这将允许模型预测未标记的数据。根据Bayes定理,y给出的X (表示的P(y|X))的概率是:\begin{eqnarray*} P(y|X) &=& \frac{P(X|y)P(y)}{P(X)} \\ &=& \frac{P(x_1,..x_a|y)P(y)}{P(x_1,..x_a)} \end{eqnarray*},在第二行中,我们将X扩展为它的单个特征x_iP(y)P(x_1,..x_a)可以从训练数据中计算出来,但是我们到底该如何计算P(x_1,..x_a|y)呢?为了做到这一点,我们假设特征是相互独立的,在这种情况下我们有:\begin{eqnarray*} P(x_1,..x_a|y) &=& P(x_1|y)P(x_2|y)..P(x_a|y) \\ &=& \Pi_{i=1}^{i=a} P(x_i|y) \end{eqnarray*} --相互独立的假设是把朴素的朴素放在朴素贝叶斯模型中的,也就是说,如果一个贝叶斯模型被描述为朴素,就意味着它是建立在特征之间相互独立的假设之上的。因此,将计算P(y|X)的问题归结为计算P(x_i|y),将所有朴素贝叶斯模型分离出来的是它们用来计算P(x_i|y)的方法。对于CategoricalNB背后的方法,我们进一步假设每个特征x_i都有一个分类分布,其中N_{tic}是特征x_iy=c出现的次数,N_cy=c的次数。\alpha是为了减少列车上的过度拟合而引入的一个超参数,而n_i是特征x_i中的履历数。

因此,总结一下:

  • 方程i)是贝叶斯定理的一种表述,它是每个贝叶斯模型的基石(这就是为什么它们被称为贝叶斯模型)。
  • 方程ii)是关于似然P(x_i|y)的一个假设。这个假设。随着相互独立的特性的假设,支撑着sklearns CategoricalNB的方法。
  • \alpha是一个用来减少过度拟合的超参数。您不能用某种笔和纸计算\alpha,它只能通过超参数微调来计算。

希望这能有所帮助

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/114651

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档