我需要帮助使用J48解释weka的结果。
我不知道如何解释结果,我正在使用来自http://archive.ics.uci.edu/ml/datasets/Heart+Disease的dataset心脏病数据集
和J48树
请帮助我,对此分析我的结果的一些要点是:
===运行信息===
===分类器模型(全训练集) ===
J48剪枝树
cp <= 3
| sex <= 0: 0 (57.0/2.0)
| sex > 0
| | slope <= 1
| | | fbs <= 0
| | | | trestbps <= 152
| | | | | thalach <= 162
| | | | | | ca <= 1
| | | | | | | age <= 56: 0 (12.0/1.0)
| | | | | | | age > 56: 1 (3.0/1.0)
| | | | | | ca > 1: 1 (2.0)
| | | | | thalach > 162: 0 (27.0)
| | | | trestbps > 152: 1 (4.0/1.0)
| | | fbs > 0: 0 (9.0)
| | slope > 1
| | | slope <= 2
| | | | ca <= 0
| | | | | fbs <= 0
| | | | | | chol <= 261
| | | | | | | oldpeak <= 2.5: 0 (11.61/1.0)
| | | | | | | oldpeak > 2.5: 1 (3.0)
| | | | | | chol > 261: 1 (4.0)
| | | | | fbs > 0: 0 (4.0)
| | | | ca > 0
| | | | | thal <= 6: 1 (6.0/1.0)
| | | | | thal > 6
| | | | | | thalach <= 145: 0 (3.39)
| | | | | | thalach > 145: 1 (5.0/1.0)
| | | slope > 2: 0 (8.0/1.0)
cp > 3
| thal <= 3
| | ca <= 2
| | | exang <= 0
| | | | sex <= 0
| | | | | chol <= 304: 0 (14.0)
| | | | | chol > 304: 1 (3.0/1.0)
| | | | sex > 0
| | | | | ca <= 0: 0 (10.0/1.0)
| | | | | ca > 0: 1 (3.0)
| | | exang > 0
| | | | restecg <= 1
| | | | | slope <= 1: 0 (2.0)
| | | | | slope > 1: 1 (5.37)
| | | | restecg > 1
| | | | | ca <= 0: 0 (4.0)
| | | | | ca > 0
| | | | | | ca <= 1
| | | | | | | thalach <= 113: 0 (2.0)
| | | | | | | thalach > 113: 1 (4.0)
| | | | | | ca > 1: 0 (2.0)
| | ca > 2: 1 (4.0)
| thal > 3
| | fbs <= 0
| | | ca <= 0
| | | | chol <= 278: 0 (23.0/8.0)
| | | | chol > 278: 1 (6.0)
| | | ca > 0: 1 (46.0/12.0)
| | fbs > 0
| | | ca <= 1: 1 (3.88)
| | | ca > 1: 0 (11.75/4.75)叶数: 31
树的大小: 61
发布于 2017-02-09 06:38:05
如果使用的是Weka Explorer,则可以右键单击结果列表中的结果行(位于窗口左侧的“开始”按钮下)。然后选择可视化树。这将显示树的图像。
如果您仍然想了解问题中显示的结果:
结果以树的形式显示。树的根从左边开始,使用的第一个特性称为cp。如果cp较小或等于3,那么树中的下一个特征是性别等等。你可以看到,当你按性别和性别分开时,<= 0就达到了一个预测。预测值为0,( 57 /2)表示训练集中的57个观测值最终出现在这条路径上,2个被错误地分类,即55个有标签0,2个有标签1。
树的开头是这样的:
--------start---------
| |
| |
|cp > 3 | cp <= 3
_________|______ ____|__________
| | | |
|thal>3 |thal<=3 |sex>0 |sex<=0
| | | |
... ... ... prediction 0 57(55,2)发布于 2017-02-10 14:08:21
安德烈F的解释很好。我想补充一些信息。
为什么这棵树的叶子上有浮动数字?一个实例(个体)能被拆分并得到一个浮点值吗?(在现实中,一个人是不能分裂的)
当实例完美地设置了所有属性时,就没有问题了。但是当实例缺少属性时,分类器(J48)就不知道该属性的树的方式。
例如,如果一个实例有其“old匹克”属性(类似于缺失的属性),那么当它到达"chol <= 261“节点(到”old匹克“节点的前一个节点)时,分类器将根据概率对实例进行除法,并且实例的百分比将变为”<= 2.5“,而其他百分比将转到”old峰值> 2.5“。
分类器是如何计算这个概率的?它通过没有实际节点缺少属性的实例进行计算。对于这个例子,将是“old峰值”属性。
如果我们有25%的实例没有丢失的“<= 2.5”属性,并且有75%的实例没有缺失的“old峰值”属性被分类在“old匹克> 2.5”节点中,那么当分类器想要对一个缺少“<= 2.5”属性的实例进行分类时,该实例的25%将通过“old峰值<= 2.5”,其余的(75%)将通过“old峰值>2.5”。
您可以尝试删除缺少属性的实例,您将看到树只具有整数,而不是浮点数。
谢谢。
https://stackoverflow.com/questions/42116255
复制相似问题