我正在执行钓鱼URL分类,我正在比较平衡的2类数据集(合法URL,phishy )上的几个ML分类器。
随机森林分类器、Ada Boost分类器、多树分类器和K分类器的分类准确率达到90%左右,假阳性率达到11~12%。(图)
另一方面,SVM、Logistic回归、多项式NB、Bernoulli NB等分类器性能较差,准确率在70% ~ 80%之间波动,假阳性率较高。
事情是这样的。我也尝试过高斯铌,虽然它的准确度是目前为止最差的58.84%,但它的假阳性率却非常低,只有2.14% (因此FNR很高)。
我用网格搜索将它们参数化,它们在相同的数据集上使用(每个类的记录约为30k ),我执行3倍的交叉验证。这对我来说没有任何意义,尤其是对支持向量机来说。最后,我使用了大约20个功能。
P.S:我使用python的sk-学习库

发布于 2020-05-12 20:21:40
https://datascience.stackexchange.com/questions/74034
复制相似问题