我开始应用数据挖掘算法。现在我研究决策树。互联网上有很多关于C4.5和ID3算法的资料,但我想知道这两种算法的实际细节、优缺点和一些技术细节。如果有链接到这样的材料,我会很高兴
发布于 2012-12-03 22:49:03
决策树的两个优点是它们能够处理嘈杂的数据,并提供对数据的直观解释(您可以很容易地看到树认为哪些属性最重要)。缺点是它们是贪婪的算法(它们选择分支属性而不考虑如何影响最终的分类精度),因此它们不一定会产生最优的树结构。决策树很容易合并到集成方法中,例如random forests。
C4.5是对ID3的改进,使其能够处理实值属性(ID3使用分类属性)和缺失属性。在互联网上有很多关于这两种算法的描述。维基百科对ID3和C4.5都有描述。对于这两种算法的另一种描述,您可以启动here。
https://stackoverflow.com/questions/13615096
复制相似问题