首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >火花决策树

火花决策树
EN

Stack Overflow用户
提问于 2016-03-21 08:35:40
回答 2查看 1.2K关注 0票数 0

我正在阅读下面的网站为决策树分类部分。http://spark.apache.org/docs/latest/mllib-decision-tree.html

我将提供的示例代码内置到我的笔记本电脑中,并试图理解它的输出。但我一点也听不懂。下面是代码,sample_libsvm_data.txt可以在data.txt下面找到

请参考输出,并让我知道我的意见是否正确。这是我的意见。

  1. 测试误差意味着它在训练数据的基础上有大约95%的校正。
  2. (最奇怪的是)如果特征434大于0.0,那么它将是基于基尼杂质的1吗?例如,该值为434:178,则为1。 从__future__进口print_function从pyspark.mllib.tree进口DecisionTree进口SparkContext,从pyspark.mllib.util进口DecisionTreeModel MLUtils if __name__ == "__main__":sc =pyspark.mllib.util data = MLUtils.loadLibSVMFile(sc,'/home/spark/bin/sample_libsvm_data.txt') (trainingData,testData) = data.randomSplit(0.7,0.3)模型=DecisionTree.trainClassifier(testData,En19#{},杂质=‘gini’,,( maxBins=32)预测= model.predict(testData.map(lambda : x.features)) labelsAndPredictions = testData.map(lambda :lp.label).zip(预测) testErr = labelsAndPredictions.filter(lambda (v,( p):v != p).count() /testData.count()打印(‘Test Error =’+ str(testErr))打印(‘学习分类树模型:’)打印(model.toDebugString()/ =====Below是我的output=====测试错误= 0.0454545454545学习分类树模型:深度为1的DecisionTreeModel分类器,如果(特征434 <= 0.0)预测: 0.0其他(特征434 > 0.0)预测: 1.0
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-03-21 12:48:07

我相信你是对的。是的,您的错误率约为5%,所以您的算法大约95%的时间是正确的30%的数据,你保留作为测试。根据您的输出(我将假设它是正确的,我没有亲自测试代码),是的,确定观察的类的唯一特性是Feature434,如果它小于0时,则为0,否则1。

票数 2
EN

Stack Overflow用户

发布于 2016-04-15 01:53:51

为什么在Spark中,在训练决策树模型时,不使用每个节点的minInfoGain或最小实例数来控制树的增长?这棵树很容易过度生长。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36126223

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档