首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在spark决策树中使用什么算法(是ID3、C4.5还是CART)

在spark决策树中使用什么算法(是ID3、C4.5还是CART)
EN

Stack Overflow用户
提问于 2016-12-07 16:32:57
回答 2查看 1.5K关注 0票数 8

我有一个关于MLlib中决策树的问题。Spark中使用的是什么算法?是ID3,C4.5还是CART?

EN

回答 2

Stack Overflow用户

发布于 2017-08-07 16:21:13

Spark MLlib正在对CART使用ID3算法。

ID3只处理分类变量,而CART可以处理连续变量。Spark决策树可以处理分类变量,所以它使用CART (在下面指定的Jira票证中,我们可以看到它们还没有实现C4.5 )。

在这个blog post中,你可以找到一些关于不同算法的信息,这就是我得到答案的地方。

您可以在此Jira ticket中找到关于将其扩展到C4.5的讨论。

更多关于here算法之间的差异的信息。

票数 3
EN

Stack Overflow用户

发布于 2016-12-08 19:23:02

如果您查看链接Apache Spark并查看部分,

节点杂质和信息增益(基本算法)

你可以找到

目前的实现提供了两个用于分类的杂质度量(基尼杂质和熵)和一个用于回归的杂质度量(方差)

此外,如果您查看链接Decision Tree,您可以发现CART (分类和回归树)算法使用基尼杂质和熵进行分类,并使用方差减少进行回归。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41012658

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档