首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据挖掘算法比较

数据挖掘算法比较
EN

Stack Overflow用户
提问于 2010-02-07 04:08:25
回答 4查看 7.5K关注 0票数 5

有没有数据挖掘算法的比较?在性能、准确性和生成健壮模型所需的数据量方面进行比较。似乎像打包和提升这样的集成学习算法被认为是目前最准确的。我没有什么特别的问题要解决。这只是一个理论问题。

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2010-02-07 04:17:19

你应该在网上搜索关于数据挖掘的调查论文。

这里有一个:Top Ten Algorithms in Data Mining,它给出一个排名,而不是并排。(虽然可能有,但我还没有看过论文)。

票数 8
EN

Stack Overflow用户

发布于 2010-02-07 06:03:22

一般来说,就鲁棒性和准确性而言,比较机器学习算法是非常困难的。然而,人们可以研究它们的一些优缺点。我考虑下面几个最著名的机器学习算法(这不是对事情的完整描述,只是我的观点):

决策树:最突出的是C4.5算法。它们的优势在于生成了一个易于解释的模型。然而,它们很容易过度拟合。存在许多变体。

贝叶斯网络有很强的统计基础。它们在对不完整数据进行推理的领域中特别有用。

人工神经网络是一种应用广泛且功能强大的技术。从理论上讲,它们能够近似任何任意函数。然而,它们需要调整大量的参数(网络结构、节点数量、激活函数等)。此外,它们还具有作为黑盒工作的缺点(难以解释模型)。

支持向量机可能被认为是最强大的技术之一。使用著名的内核技巧,理论上总是可以实现100%的可分离性。与ANN不同的是,它们寻求优化一个唯一可解的问题(没有局部最小值)。然而,它们可能是计算密集型的,并且很难应用于大型数据集。支持向量机绝对是一个开放的研究领域。

然后还有一类元学习算法,如集成学习技术,如打包,增强,堆叠等。它们本身并不完整,而是用作改进和组合其他算法的方法。

最后,我应该提到,没有一种算法比另一种算法更好,选择哪种算法在很大程度上取决于我们所在的领域,以及数据和如何对其进行预处理等许多因素。

票数 3
EN

Stack Overflow用户

发布于 2010-02-07 21:23:19

ROC curves已被证明对机器学习技术的评估是有用的,特别是在比较和评估不同的分类算法方面。你可能会发现这个introduction to ROC analysis很有帮助。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2214552

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档