首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用朴素贝叶斯分类器可疑的低假阳性率?

用朴素贝叶斯分类器可疑的低假阳性率?
EN

Data Science用户
提问于 2020-05-12 13:54:55
回答 1查看 588关注 0票数 0

我正在执行钓鱼URL分类,我正在比较平衡的2类数据集(合法URL,phishy )上的几个ML分类器。

随机森林分类器、Ada Boost分类器、多树分类器和K分类器的分类准确率达到90%左右,假阳性率达到11~12%。(图)

另一方面,SVM、Logistic回归、多项式NB、Bernoulli NB等分类器性能较差,准确率在70% ~ 80%之间波动,假阳性率较高。

事情是这样的。我也尝试过高斯铌,虽然它的准确度是目前为止最差的58.84%,但它的假阳性率却非常低,只有2.14% (因此FNR很高)。

  1. 我不知道为什么会这样。有什么想法吗?
  2. 为什么有些分类器表现这么差,而另一些则不行呢?

我用网格搜索将它们参数化,它们在相同的数据集上使用(每个类的记录约为30k ),我执行3倍的交叉验证。这对我来说没有任何意义,尤其是对支持向量机来说。最后,我使用了大约20个功能。

P.S:我使用python的sk-学习库

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-05-12 20:21:40

  1. 我发现人们理解这一点的最简单的方法是想到混淆矩阵。准确性评分只是混淆矩阵的一种度量,即对所有预测数据的所有正确分类:\frac{True Positives + True Negatives}{True Positives + True Negatives + False Positives + False Negatives}您的假阴性率是由:\frac{False Negatives}{False Negatives + True Positives}一个模型可能有一个较差的准确性,但一个更好的假负率。例如,精度较低的模型实际上可能有许多假阳性,但很少有假阴性,从而导致较低的假阴性率。您需要选择为特定用例产生最大价值的模型。
  2. 为什么有些分类器表现不好?虽然经验实践者可能猜测什么是数据集的良好建模方法,但事实是,对于所有数据集,没有免费午餐。也被称为“学习算法之间缺乏先验的区别”,你不知道是否最好的方法是深度学习,梯度提升,线性方法,或者其他你可以建立的模型。
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/74034

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档