有没有数据挖掘算法的比较?在性能、准确性和生成健壮模型所需的数据量方面进行比较。似乎像打包和提升这样的集成学习算法被认为是目前最准确的。我没有什么特别的问题要解决。这只是一个理论问题。
发布于 2010-02-07 04:17:19
你应该在网上搜索关于数据挖掘的调查论文。
这里有一个:Top Ten Algorithms in Data Mining,它给出一个排名,而不是并排。(虽然可能有,但我还没有看过论文)。
发布于 2010-02-07 06:03:22
一般来说,就鲁棒性和准确性而言,比较机器学习算法是非常困难的。然而,人们可以研究它们的一些优缺点。我考虑下面几个最著名的机器学习算法(这不是对事情的完整描述,只是我的观点):
决策树:最突出的是C4.5算法。它们的优势在于生成了一个易于解释的模型。然而,它们很容易过度拟合。存在许多变体。
贝叶斯网络有很强的统计基础。它们在对不完整数据进行推理的领域中特别有用。
人工神经网络是一种应用广泛且功能强大的技术。从理论上讲,它们能够近似任何任意函数。然而,它们需要调整大量的参数(网络结构、节点数量、激活函数等)。此外,它们还具有作为黑盒工作的缺点(难以解释模型)。
支持向量机可能被认为是最强大的技术之一。使用著名的内核技巧,理论上总是可以实现100%的可分离性。与ANN不同的是,它们寻求优化一个唯一可解的问题(没有局部最小值)。然而,它们可能是计算密集型的,并且很难应用于大型数据集。支持向量机绝对是一个开放的研究领域。
然后还有一类元学习算法,如集成学习技术,如打包,增强,堆叠等。它们本身并不完整,而是用作改进和组合其他算法的方法。
最后,我应该提到,没有一种算法比另一种算法更好,选择哪种算法在很大程度上取决于我们所在的领域,以及数据和如何对其进行预处理等许多因素。
发布于 2010-02-07 21:23:19
ROC curves已被证明对机器学习技术的评估是有用的,特别是在比较和评估不同的分类算法方面。你可能会发现这个introduction to ROC analysis很有帮助。
https://stackoverflow.com/questions/2214552
复制相似问题