文章/答案/技术大牛

发布

社区首页 >问答首页 >SkLearn范畴朴素贝叶斯与朴素贝叶斯数学理论

问SkLearn范畴朴素贝叶斯与朴素贝叶斯数学理论
EN

Data Science用户

提问于 2022-09-24 03:45:40

回答 1查看 50关注 0票数 0

基于以下公式的朴素贝叶斯分类

P(C_i|X) = {P(X|C_i)P(C_i) \over P(X)} ... i)

P(X|C_i)是以C_i为条件的X后验概率，P(X)先验概率X，C_i代表类。

现在，如果我们有以下数据集：

Age    Income    Buy_computer

Senior   fair        Yes
Junior   fair        Yes
Young    poor        No
Senior   poor        Yes
Junior   fair        No
Young    poor        No

现在，如果我们得到一个新的数据(Age = young，Income= fair)，我们需要找出这些数据应该属于哪个类。..。例1)

我们可以使用eq来找出这个类。

我也学过绝对朴素贝叶斯

根据文件，

给定c类的特征i中t类的概率估计为：

P(Xi=t|y=c ; alpha ) = (Ntic + alpha)/(Nc +αni) ...ii)

如示例1所示，我们可以将方程ii转换为

P(年龄=年轻，Income= fair x Buy_computer=?)

然后应用方程I求出P(Age=young，Income=fair)类

然而，我不明白方程二的右手边与方程式一有什么关系)

方程i)也没有任何alpha参数，参数alpha如何影响答案？

谢谢。

categorical-data

naive-bayes-classifier

encoder

回答 1

Data Science用户

回答已采纳

发布于 2022-09-24 09:28:36

Now --如果我们得到一个新的数据(Age = young，Income= fair)，我们需要找出这个数据应该属于哪个类。..。例1)

如果一个样本没有标签，你不能把它包括在火车/测试集中，不确定这是不是你在这里的意思，但我想澄清一下，以防万一。话虽如此，在模型经过训练和测试之后，你可以尝试预测它是可行的。

However，我不明白eq ii的右手边是如何与方程式i)相关的。

我认为这里有两件事会引起混乱。

用于方程i)和ii)的表示法是不一致的。我猜你是从不同的来源引用的。我将用滑雪板的符号来回答我的问题。
您不能将等式i)应用于方程ii)。方程i)是Bayes定理的一种表述，而ii)则是我们关于范畴分布数据集的可能性P(x_i|y)的一个假设。如果我们快速地推导出i)和ii)背后的数学，那么CategoricalNB和D13之间的关系就会变得更加清楚。

假设我们有一个带有标签y的特性集D17。考虑到这个特性集y，我们希望训练一个模型来计算输出X的可移植性，因为这将允许模型预测未标记的数据。根据Bayes定理，y给出的X (表示的P(y|X))的概率是：\begin{eqnarray*} P(y|X) &=& \frac{P(X|y)P(y)}{P(X)} \\ &=& \frac{P(x_1,..x_a|y)P(y)}{P(x_1,..x_a)} \end{eqnarray*}，在第二行中，我们将X扩展为它的单个特征x_i。P(y)和P(x_1,..x_a)可以从训练数据中计算出来，但是我们到底该如何计算P(x_1,..x_a|y)呢？为了做到这一点，我们假设特征是相互独立的，在这种情况下我们有：\begin{eqnarray*} P(x_1,..x_a|y) &=& P(x_1|y)P(x_2|y)..P(x_a|y) \\ &=& \Pi_{i=1}^{i=a} P(x_i|y) \end{eqnarray*} --相互独立的假设是把朴素的朴素放在朴素贝叶斯模型中的，也就是说，如果一个贝叶斯模型被描述为朴素，就意味着它是建立在特征之间相互独立的假设之上的。因此，将计算P(y|X)的问题归结为计算P(x_i|y)，将所有朴素贝叶斯模型分离出来的是它们用来计算P(x_i|y)的方法。对于CategoricalNB背后的方法，我们进一步假设每个特征x_i都有一个分类分布，其中N_{tic}是特征x_i中y=c出现的次数，N_c是y=c的次数。\alpha是为了减少列车上的过度拟合而引入的一个超参数，而n_i是特征x_i中的履历数。

因此，总结一下：

方程i)是贝叶斯定理的一种表述，它是每个贝叶斯模型的基石(这就是为什么它们被称为贝叶斯模型)。
方程ii)是关于似然P(x_i|y)的一个假设。这个假设。随着相互独立的特性的假设，支撑着sklearns CategoricalNB的方法。
\alpha是一个用来减少过度拟合的超参数。您不能用某种笔和纸计算\alpha，它只能通过超参数微调来计算。

希望这能有所帮助

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/114651

复制

相似问题

问SkLearn范畴朴素贝叶斯与朴素贝叶斯数学理论
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SkLearn范畴朴素贝叶斯与朴素贝叶斯数学理论EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SkLearn范畴朴素贝叶斯与朴素贝叶斯数学理论
EN