我是这方面的新手。在使用统计测试对算法进行比较时,我面临一些问题。本文给出了几种分类算法的Gmean结果。鲍鱼、平衡秤、Car、国际象棋是这里的数据集,ROS、RUS、RFS、NoS是算法.
如果我想用一些统计检验(如t检验、Friedmen检验、Wilcoxon检验等)来比较哪个数据集比其他数据集更好,那么我能用下表比较算法吗?
ROS RUS RFS NoS
Abalone 0.003 0.0036 0.0039 0
Balance-scale 0.8858 0.8065 0.8966 0.9417
Car 0.9191 0.7216 0.9056 0.9094
Chess 0.4912 0.1973 0.5084 0.1438如果有人知道这件事,请帮帮我。或者你可以在我找到解决方案的地方分享任何参考资料。我研究了这些统计检验,零假设,p-值等,但不知道是否有可能用Gmean对这些算法进行比较。
*G-均值=几何平均,用于评估多类分类器的性能
提前谢谢。
发布于 2020-06-27 18:56:54
机器学习算法的性能通常不通过零假设显着性检验(NHST)来评估。
机器学习性能通常通过对延迟数据(例如,验证或测试)的性能进行评估,而不管评估标准如何。
https://datascience.stackexchange.com/questions/66249
复制相似问题