文章/答案/技术大牛

发布

社区首页 >问答首页 >火花决策树

问火花决策树
EN

Stack Overflow用户

提问于 2016-03-21 08:35:40

回答 2查看 1.2K关注 0票数 0

我正在阅读下面的网站为决策树分类部分。http://spark.apache.org/docs/latest/mllib-decision-tree.html

我将提供的示例代码内置到我的笔记本电脑中，并试图理解它的输出。但我一点也听不懂。下面是代码，sample_libsvm_data.txt可以在data.txt下面找到

请参考输出，并让我知道我的意见是否正确。这是我的意见。

测试误差意味着它在训练数据的基础上有大约95%的校正。
(最奇怪的是)如果特征434大于0.0，那么它将是基于基尼杂质的1吗？例如，该值为434:178，则为1。从__future__进口print_function从pyspark.mllib.tree进口DecisionTree进口SparkContext，从pyspark.mllib.util进口DecisionTreeModel MLUtils if __name__ == "__main__"：sc =pyspark.mllib.util data = MLUtils.loadLibSVMFile(sc，'/home/spark/bin/sample_libsvm_data.txt') (trainingData，testData) = data.randomSplit(0.7，0.3)模型=DecisionTree.trainClassifier(testData，En19#{}，杂质=‘gini’，，( maxBins=32)预测= model.predict(testData.map(lambda : x.features)) labelsAndPredictions = testData.map(lambda :lp.label).zip(预测) testErr = labelsAndPredictions.filter(lambda (v，( p)：v != p).count() /testData.count()打印(‘Test Error =’+ str(testErr))打印(‘学习分类树模型：’)打印(model.toDebugString()/ =====Below是我的output=====测试错误= 0.0454545454545学习分类树模型:深度为1的DecisionTreeModel分类器，如果(特征434 <= 0.0)预测: 0.0其他(特征434 > 0.0)预测: 1.0

apache-spark

classification

pyspark

decision-tree

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-03-21 12:48:07

我相信你是对的。是的，您的错误率约为5%，所以您的算法大约95%的时间是正确的30%的数据，你保留作为测试。根据您的输出(我将假设它是正确的，我没有亲自测试代码)，是的，确定观察的类的唯一特性是Feature434，如果它小于0时，则为0，否则1。

票数 2

Stack Overflow用户

发布于 2016-04-15 01:53:51

为什么在Spark中，在训练决策树模型时，不使用每个节点的minInfoGain或最小实例数来控制树的增长？这棵树很容易过度生长。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36126223

复制

相似问题

问火花决策树
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问火花决策树EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问火花决策树
EN