文章/答案/技术大牛

发布

社区首页 >问答首页 >测量分类算法的性能

问测量分类算法的性能
EN

Stack Overflow用户

提问于 2009-01-02 11:09:54

回答 2查看 2.1K关注 0票数 8

我手头有一个分类问题，我想用机器学习算法来解决这个问题(贝叶斯或马尔可夫，这个问题与要使用的分类器无关)。在给定大量训练实例的情况下，我正在寻找一种方法来衡量实现的分类器的性能，同时考虑到数据过拟合问题。

也就是说:给定N1..100个训练样本，如果我在每个样本上运行训练算法，并使用这些完全相同的样本来测量适应度，它可能会陷入数据过拟合问题-the分类器将知道训练实例的确切答案，而没有太多的预测能力，导致适应度结果无用。

一个显而易见的解决方案是将手工标记的样本分成训练样本和测试样本；我想了解选择统计上有意义的样本进行训练的方法。

白皮书，书籍指针，和PDF非常感谢！

artificial-intelligence

machine-learning

nlp

classification

bayesian

回答 2

Stack Overflow用户

回答已采纳

发布于 2009-01-02 11:29:41

您可以使用10-fold Cross-validation来实现这一点。我认为这是一种非常标准的分类算法性能评估方法。

基本思想是将学习样本划分为10个子集。然后将一个子集用于测试数据，将其他子集用于训练数据。对每个子集重复此操作，并在结束时计算平均性能。

票数 14

Stack Overflow用户

发布于 2009-01-02 11:44:12

正如布朗斯通先生所说，10倍交叉验证可能是最好的方法。我最近不得不评估一些不同分类器的性能，为此我使用了Weka。它有一个API和大量的工具，可以让你轻松地测试许多不同分类器的性能。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/406518

复制

相似问题

问测量分类算法的性能
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问测量分类算法的性能EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问测量分类算法的性能
EN