文章/答案/技术大牛

发布

社区首页 >问答首页 >机器学习算法的统计比较

问机器学习算法的统计比较
EN

Stack Overflow用户

提问于 2015-07-06 18:28:33

回答 2查看 341关注 0票数 0

我从事机器学习的工作。我被困在其中一个东西里了。

我想在10个数据集中比较4种机器学习技术。经过实验，我得到了曲线下面积的值。在此之后，我进行了方差分析检验，结果表明四种机器学习技术之间存在显着差异。

现在我的问题是，与其他算法相比，哪个测试会得出特定算法表现良好的结论，并且我只想在机器学习技术中选择一个获胜者。

statistics

auc

math

machine-learning

回答 2

Stack Overflow用户

发布于 2015-07-06 19:31:23

分类器的质量可以通过F-Score来衡量，它衡量了测试的准确性。将这些分数进行比较，可以得到一个简单的衡量标准。

但是，如果您想要测量分类器的精度之间的差异是否显着，您可以尝试Bayesian Test，或者，如果分类器只训练一次，则可以尝试McNemar's test。

还有其他的可能性，和的论文可能值得一读。

票数 0

Stack Overflow用户

发布于 2015-07-07 02:36:06

如果您正在收集性能指标(ROC、准确性、敏感度、特异性...)然后，您可以使用配对比较来执行统计测试。大多数统计软件实现了图基斯极差检验(ANOVA)。https://en.wikipedia.org/wiki/Tukey%27s_range_test。这里提供了对此材料的正式处理：http://epub.ub.uni-muenchen.de/4134/1/tr030.pdf。这是我喜欢用于您讨论的目的的测试，尽管还有其他人和人们有不同的观点。

你仍然必须选择如何基于你的数据采样(k倍)，重复(k倍)，bootstrap，删除一个，重复训练测试分割。Bootstrap方法倾向于在省略一个之后给您提供最紧密的置信区间；但是如果您的数据量很大，那么省略一个可能不是一个选择。

也就是说，您可能还需要考虑问题域。误报可能是分类中的一个问题。您可能需要考虑其他指标来选择该域的最佳执行者。对于特定领域，AUC可能并不总是最佳模型。例如，一家信用卡公司可能不想拒绝客户的交易，我们需要一个非常低的欺诈分类误报率。

您可能还想考虑实现。如果逻辑回归的性能接近，它可能是比随机森林的更复杂实现更好的选择。模型使用是否有法律含义(公平信用报告法案...)？

一种常识方法是从RF或梯度增强树开始，以获得性能上限的经验意义。然后构建更简单的模型，并使用与天花板相比性能合理的更简单的模型。

或者你可以使用像套索这样的东西来组合你所有的模型。或者其他的模型。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31243506

复制

相似问题

问机器学习算法的统计比较
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习算法的统计比较EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习算法的统计比较
EN