文章/答案/技术大牛

发布

社区首页 >问答首页 >用朴素贝叶斯分类器可疑的低假阳性率？

问用朴素贝叶斯分类器可疑的低假阳性率？
EN

Data Science用户

提问于 2020-05-12 13:54:55

回答 1查看 588关注 0票数 0

我正在执行钓鱼URL分类，我正在比较平衡的2类数据集(合法URL，phishy )上的几个ML分类器。

随机森林分类器、Ada Boost分类器、多树分类器和K分类器的分类准确率达到90%左右，假阳性率达到11~12%。(图)

另一方面，SVM、Logistic回归、多项式NB、Bernoulli NB等分类器性能较差，准确率在70% ~ 80%之间波动，假阳性率较高。

事情是这样的。我也尝试过高斯铌，虽然它的准确度是目前为止最差的58.84%，但它的假阳性率却非常低，只有2.14% (因此FNR很高)。

我不知道为什么会这样。有什么想法吗？
为什么有些分类器表现这么差，而另一些则不行呢？

我用网格搜索将它们参数化，它们在相同的数据集上使用(每个类的记录约为30k )，我执行3倍的交叉验证。这对我来说没有任何意义，尤其是对支持向量机来说。最后，我使用了大约20个功能。

P.S:我使用python的sk-学习库

machine-learning

classification

svm

supervised-learning

naive-bayes-classifier

回答 1

Data Science用户

回答已采纳

发布于 2020-05-12 20:21:40

我发现人们理解这一点的最简单的方法是想到混淆矩阵。准确性评分只是混淆矩阵的一种度量，即对所有预测数据的所有正确分类：\frac{True Positives + True Negatives}{True Positives + True Negatives + False Positives + False Negatives}您的假阴性率是由：\frac{False Negatives}{False Negatives + True Positives}一个模型可能有一个较差的准确性，但一个更好的假负率。例如，精度较低的模型实际上可能有许多假阳性，但很少有假阴性，从而导致较低的假阴性率。您需要选择为特定用例产生最大价值的模型。
为什么有些分类器表现不好？虽然经验实践者可能猜测什么是数据集的良好建模方法，但事实是，对于所有数据集，没有免费午餐。也被称为“学习算法之间缺乏先验的区别”，你不知道是否最好的方法是深度学习，梯度提升，线性方法，或者其他你可以建立的模型。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/74034

复制

相似问题

问用朴素贝叶斯分类器可疑的低假阳性率？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用朴素贝叶斯分类器可疑的低假阳性率？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用朴素贝叶斯分类器可疑的低假阳性率？
EN