问c4.5算法缺失值
EN

Stack Overflow用户

提问于 2017-02-14 06:11:07

回答 1查看 3.4K关注 0票数 0

C4.5算法如何处理连续间隔上的缺失值和属性值？另外，决策树是如何被剪除的？有谁能用一个例子来解释一下。

algorithm

decision-tree

c4.5

回答 1

Stack Overflow用户

发布于 2017-02-27 04:28:47

假设我们根据天气情况建立了一个决策树，这是一个典型的例子:是否应该打高尔夫球。我们可能有这样的训练数据集：

OUTLOOK | TEMPERATURE | HUMIDITY | WINDY | PLAY
=====================================================
sunny   |      85     |    85    | false | Don't Play
sunny   |      80     |    90    | true  | Don't Play
overcast|      83     |    78    | false | Play
rain    |      70     |    96    | false | Play
rain    |      68     |    80    | false | Play
rain    |      65     |    70    | true  | Don't Play
overcast|      64     |    65    | true  | Play
sunny   |      72     |    95    | false | Don't Play
sunny   |      69     |    70    | false | Play
rain    |      75     |    80    | false | Play
sunny   |      75     |    70    | true  | Play
overcast|      72     |    90    | true  | Play
overcast|      81     |    75    | false | Play
rain    |      71     |    80    | true  | Don't Play

并使用它构建一个决策树，该树看起来可能如下所示：

              Outlook
            /  |      \
  overcast /   |sunny  \rain
          /    |        \
     Play   Humidity   Windy
           /   |         |  \
          /    |         |   \
    <=75 /  >75|     true|    \false
        /      |         |     \
     Play  Don'tPlay Don'tPlay  Play

C4.5算法通过返回值缺失的属性分支下标签的概率分布来处理丢失的值。假设我们的测试数据中有一个实例，它显示outlook为Sunny，但没有属性Humidity的值。另外，假设我们的培训数据有2实例，其outlook为Sunny，Humidity低于75，标签为Play。此外，假设培训数据有3实例，其中outlook为Sunny，Humidity高于75，标签为Don't Play。因此，对于缺少Humidity属性的测试实例，C4.5算法将返回对应于[Play, Don't Play]的[0.4, 0.6]的概率分布。
假设您已经了解决策树如何使用一组特征的信息增益来选择在每个级别上分支的特征，则C4.5算法将对连续间隔属性执行相同的过程，方法是为属性的每一个分割计算信息增益，并选择最佳的属性。这方面的一个例子可以在上面的Humidity属性中看到。C4.5算法测试了湿度属性在65、70、75、78.90时所提供的信息增益，并发现在75下执行分割提供了最大的信息增益。
C4.5通过将决策树中的子树替换为包含子树所有决策或提供最小错误的单个决策节点来执行剪枝。

要获得更多信息，我建议我编写自己的决策树和随机森林算法的优秀资源：https://cis.temple.edu/~giorgio/cis587/readings/id3-c45.html

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42219073

复制

相似问题

问c4.5算法缺失值
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问c4.5算法缺失值EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问c4.5算法缺失值
EN