C4.5算法如何处理连续间隔上的缺失值和属性值?另外,决策树是如何被剪除的?有谁能用一个例子来解释一下。
发布于 2017-02-27 04:28:47
假设我们根据天气情况建立了一个决策树,这是一个典型的例子:是否应该打高尔夫球。我们可能有这样的训练数据集:
OUTLOOK | TEMPERATURE | HUMIDITY | WINDY | PLAY
=====================================================
sunny | 85 | 85 | false | Don't Play
sunny | 80 | 90 | true | Don't Play
overcast| 83 | 78 | false | Play
rain | 70 | 96 | false | Play
rain | 68 | 80 | false | Play
rain | 65 | 70 | true | Don't Play
overcast| 64 | 65 | true | Play
sunny | 72 | 95 | false | Don't Play
sunny | 69 | 70 | false | Play
rain | 75 | 80 | false | Play
sunny | 75 | 70 | true | Play
overcast| 72 | 90 | true | Play
overcast| 81 | 75 | false | Play
rain | 71 | 80 | true | Don't Play并使用它构建一个决策树,该树看起来可能如下所示:
Outlook
/ | \
overcast / |sunny \rain
/ | \
Play Humidity Windy
/ | | \
/ | | \
<=75 / >75| true| \false
/ | | \
Play Don'tPlay Don'tPlay PlaySunny,但没有属性Humidity的值。另外,假设我们的培训数据有2实例,其outlook为Sunny,Humidity低于75,标签为Play。此外,假设培训数据有3实例,其中outlook为Sunny,Humidity高于75,标签为Don't Play。因此,对于缺少Humidity属性的测试实例,C4.5算法将返回对应于[Play, Don't Play]的[0.4, 0.6]的概率分布。Humidity属性中看到。C4.5算法测试了湿度属性在65、70、75、78.90时所提供的信息增益,并发现在75下执行分割提供了最大的信息增益。要获得更多信息,我建议我编写自己的决策树和随机森林算法的优秀资源:https://cis.temple.edu/~giorgio/cis587/readings/id3-c45.html
https://stackoverflow.com/questions/42219073
复制相似问题