我从事机器学习的工作。我被困在其中一个东西里了。
我想在10个数据集中比较4种机器学习技术。经过实验,我得到了曲线下面积的值。在此之后,我进行了方差分析检验,结果表明四种机器学习技术之间存在显着差异。
现在我的问题是,与其他算法相比,哪个测试会得出特定算法表现良好的结论,并且我只想在机器学习技术中选择一个获胜者。
发布于 2015-07-06 19:31:23
分类器的质量可以通过F-Score来衡量,它衡量了测试的准确性。将这些分数进行比较,可以得到一个简单的衡量标准。
但是,如果您想要测量分类器的精度之间的差异是否显着,您可以尝试Bayesian Test,或者,如果分类器只训练一次,则可以尝试McNemar's test。
还有其他的可能性,和的论文可能值得一读。
发布于 2015-07-07 02:36:06
如果您正在收集性能指标(ROC、准确性、敏感度、特异性...)然后,您可以使用配对比较来执行统计测试。大多数统计软件实现了图基斯极差检验(ANOVA)。https://en.wikipedia.org/wiki/Tukey%27s_range_test。这里提供了对此材料的正式处理:http://epub.ub.uni-muenchen.de/4134/1/tr030.pdf。这是我喜欢用于您讨论的目的的测试,尽管还有其他人和人们有不同的观点。
你仍然必须选择如何基于你的数据采样(k倍),重复(k倍),bootstrap,删除一个,重复训练测试分割。Bootstrap方法倾向于在省略一个之后给您提供最紧密的置信区间;但是如果您的数据量很大,那么省略一个可能不是一个选择。
也就是说,您可能还需要考虑问题域。误报可能是分类中的一个问题。您可能需要考虑其他指标来选择该域的最佳执行者。对于特定领域,AUC可能并不总是最佳模型。例如,一家信用卡公司可能不想拒绝客户的交易,我们需要一个非常低的欺诈分类误报率。
您可能还想考虑实现。如果逻辑回归的性能接近,它可能是比随机森林的更复杂实现更好的选择。模型使用是否有法律含义(公平信用报告法案...)?
一种常识方法是从RF或梯度增强树开始,以获得性能上限的经验意义。然后构建更简单的模型,并使用与天花板相比性能合理的更简单的模型。
或者你可以使用像套索这样的东西来组合你所有的模型。或者其他的模型。
https://stackoverflow.com/questions/31243506
复制相似问题