问你能把许多朴素的贝叶斯训练样本减少到几个大样本吗？
EN

Data Science用户

提问于 2018-01-05 14:18:30

回答 1查看 138关注 0票数 1

对不起，如果这是一个简单的问题(我是数据科学的新手)。我试图在Python中实现一个朴素的Bayes分类器。

我已经实现了一个标准的朴素贝叶斯分类器(伯努利)，这非常顺利。假设我有50,000个样本，其中前半部分标记为“0”，下半部分标记为“1”。然后，X_train矩阵的形状将是(#number_ of _unique_words/features，50000)和y_train的形状(50000，)。

根据我对朴素贝叶斯的理解，我现在还可以加入前25000个文档来表示一个带有标签'0‘的大文档和一个带有标签'1’的大文档。然而，当我试图预测测试集时，这给了我非常不同的结果。我对朴素贝叶斯的理解是正确的，还是我的实现是错的？

回答已采纳

发布于 2018-01-20 17:43:23

您的假设似乎是正确的，这两种方法实际上是等价的。我看不出这两种方式的可能性和条件性有什么不同。

这就是为什么两种方式的预测都应该是相同的。更有可能的是，您的实现有问题。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/26323

复制

相似问题

问你能把许多朴素的贝叶斯训练样本减少到几个大样本吗？EN