对不起,如果这是一个简单的问题(我是数据科学的新手)。我试图在Python中实现一个朴素的Bayes分类器。
我已经实现了一个标准的朴素贝叶斯分类器(伯努利),这非常顺利。假设我有50,000个样本,其中前半部分标记为“0”,下半部分标记为“1”。然后,X_train矩阵的形状将是(#number_ of _unique_words/features,50000)和y_train的形状(50000,)。
根据我对朴素贝叶斯的理解,我现在还可以加入前25000个文档来表示一个带有标签'0‘的大文档和一个带有标签'1’的大文档。然而,当我试图预测测试集时,这给了我非常不同的结果。我对朴素贝叶斯的理解是正确的,还是我的实现是错的?
发布于 2018-01-20 17:43:23
您的假设似乎是正确的,这两种方法实际上是等价的。我看不出这两种方式的可能性和条件性有什么不同。
这就是为什么两种方式的预测都应该是相同的。更有可能的是,您的实现有问题。
https://datascience.stackexchange.com/questions/26323
复制相似问题