ROC曲线将参数的不同临界点的真阳性率(灵敏度)作为假阳性率(100-特异性)的函数。ROC曲线上的每个点表示对应于特定决策阈值的灵敏度/特异性对。这将允许在改变给定参数(例如随机森林中的树数)以帮助优化特定分类器的参数时,比较模型的优劣。虽然在比较不同类型的分类器(如随机森林与神经网络与Logistic回归)时,是否应该使用ROC曲线?我在第二张幻灯片这里上遇到了这样一个例子,并试图理解这些曲线的意义。据我所知,当比较曲线下的面积时,在不同类型的分类器中调整不同的参数时,所显示的图形似乎并不一定是公平的比较。
发布于 2018-06-28 07:59:46
虽然在比较不同类型的分类器(如随机森林与神经网络与Logistic回归)时,是否应该使用ROC曲线?
是的,因为你可以清楚地看到哪种型号的整体表现最好。你越接近图的左上角,你的模型就越好。(示例中的蓝线,兰登森林)
如果在示例中计算ROC曲线下的面积,您将得到:
AUC(RF) > AUC(MLP) > AUC(SVM)
因此,AUC是一个很好的指标来显示哪条曲线是“较高”的。
现在,有时你可能会对左下角有“陡峭”ROC曲线的模型感兴趣(改进TPR的可能性更高,而FPR的成本更低),也许该模型在AUC方面并不是最好的。(不是你的例子中的情况)
在这种情况下,您不会选择AUC作为模型选择的术语,因为它没有为您选择“最佳”模型。
总的来说,不同模型之间的ROC曲线对您有很大帮助,不仅可以显示不同阈值的性能,而且可以同时比较不同的解决方案。
编辑:
每个模型都给出了每个观测值的一个数字,即属于一个类的概率(介于0到1之间的p数)。假设一个观察值为p= 0.3,那么阈值为0.5时,您将将该观察标记为两个类中的一个(假设只有两个标签)。
你的规则是:
对于ROC曲线,你基本上有一个“高”的阈值,比如从0.01到0.99。每种型号。
因此,对于每个模型,您将把每个观察分配给相应的类,使用t= 0.01,然后t= 0.02,以此类推,直到t= 0.99。(t =阈值)
https://datascience.stackexchange.com/questions/33732
复制相似问题