我有一个关于MLlib中决策树的问题。Spark中使用的是什么算法?是ID3,C4.5还是CART?
发布于 2017-08-07 16:21:13
Spark MLlib正在对CART使用ID3算法。
ID3只处理分类变量,而CART可以处理连续变量。Spark决策树可以处理分类变量,所以它使用CART (在下面指定的Jira票证中,我们可以看到它们还没有实现C4.5 )。
在这个blog post中,你可以找到一些关于不同算法的信息,这就是我得到答案的地方。
您可以在此Jira ticket中找到关于将其扩展到C4.5的讨论。
更多关于here算法之间的差异的信息。
发布于 2016-12-08 19:23:02
如果您查看链接Apache Spark并查看部分,
节点杂质和信息增益(基本算法)
你可以找到
目前的实现提供了两个用于分类的杂质度量(基尼杂质和熵)和一个用于回归的杂质度量(方差)
此外,如果您查看链接Decision Tree,您可以发现CART (分类和回归树)算法使用基尼杂质和熵进行分类,并使用方差减少进行回归。
https://stackoverflow.com/questions/41012658
复制相似问题