文章/答案/技术大牛

发布

社区首页 >问答首页 >数据挖掘算法比较

问数据挖掘算法比较
EN

Stack Overflow用户

提问于 2010-02-07 04:08:25

回答 4查看 7.5K关注 0票数 5

有没有数据挖掘算法的比较？在性能、准确性和生成健壮模型所需的数据量方面进行比较。似乎像打包和提升这样的集成学习算法被认为是目前最准确的。我没有什么特别的问题要解决。这只是一个理论问题。

algorithm

data-mining

回答 4

Stack Overflow用户

回答已采纳

发布于 2010-02-07 04:17:19

你应该在网上搜索关于数据挖掘的调查论文。

这里有一个：Top Ten Algorithms in Data Mining，它给出一个排名，而不是并排。(虽然可能有，但我还没有看过论文)。

票数 8

Stack Overflow用户

发布于 2010-02-07 06:03:22

一般来说，就鲁棒性和准确性而言，比较机器学习算法是非常困难的。然而，人们可以研究它们的一些优缺点。我考虑下面几个最著名的机器学习算法(这不是对事情的完整描述，只是我的观点)：

决策树:最突出的是C4.5算法。它们的优势在于生成了一个易于解释的模型。然而，它们很容易过度拟合。存在许多变体。

贝叶斯网络有很强的统计基础。它们在对不完整数据进行推理的领域中特别有用。

人工神经网络是一种应用广泛且功能强大的技术。从理论上讲，它们能够近似任何任意函数。然而，它们需要调整大量的参数(网络结构、节点数量、激活函数等)。此外，它们还具有作为黑盒工作的缺点(难以解释模型)。

支持向量机可能被认为是最强大的技术之一。使用著名的内核技巧，理论上总是可以实现100%的可分离性。与ANN不同的是，它们寻求优化一个唯一可解的问题(没有局部最小值)。然而，它们可能是计算密集型的，并且很难应用于大型数据集。支持向量机绝对是一个开放的研究领域。

然后还有一类元学习算法，如集成学习技术，如打包，增强，堆叠等。它们本身并不完整，而是用作改进和组合其他算法的方法。

最后，我应该提到，没有一种算法比另一种算法更好，选择哪种算法在很大程度上取决于我们所在的领域，以及数据和如何对其进行预处理等许多因素。

票数 3

Stack Overflow用户

发布于 2010-02-07 21:23:19

ROC curves已被证明对机器学习技术的评估是有用的，特别是在比较和评估不同的分类算法方面。你可能会发现这个introduction to ROC analysis很有帮助。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/2214552

复制

相似问题

问数据挖掘算法比较
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据挖掘算法比较EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据挖掘算法比较
EN