首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >c4.5算法缺失值

c4.5算法缺失值
EN

Stack Overflow用户
提问于 2017-02-14 06:11:07
回答 1查看 3.4K关注 0票数 0

C4.5算法如何处理连续间隔上的缺失值和属性值?另外,决策树是如何被剪除的?有谁能用一个例子来解释一下。

EN

回答 1

Stack Overflow用户

发布于 2017-02-27 04:28:47

假设我们根据天气情况建立了一个决策树,这是一个典型的例子:是否应该打高尔夫球。我们可能有这样的训练数据集:

代码语言:javascript
复制
OUTLOOK | TEMPERATURE | HUMIDITY | WINDY | PLAY
=====================================================
sunny   |      85     |    85    | false | Don't Play
sunny   |      80     |    90    | true  | Don't Play
overcast|      83     |    78    | false | Play
rain    |      70     |    96    | false | Play
rain    |      68     |    80    | false | Play
rain    |      65     |    70    | true  | Don't Play
overcast|      64     |    65    | true  | Play
sunny   |      72     |    95    | false | Don't Play
sunny   |      69     |    70    | false | Play
rain    |      75     |    80    | false | Play
sunny   |      75     |    70    | true  | Play
overcast|      72     |    90    | true  | Play
overcast|      81     |    75    | false | Play
rain    |      71     |    80    | true  | Don't Play

并使用它构建一个决策树,该树看起来可能如下所示:

代码语言:javascript
复制
              Outlook
            /  |      \
  overcast /   |sunny  \rain
          /    |        \
     Play   Humidity   Windy
           /   |         |  \
          /    |         |   \
    <=75 /  >75|     true|    \false
        /      |         |     \
     Play  Don'tPlay Don'tPlay  Play
  1. C4.5算法通过返回值缺失的属性分支下标签的概率分布来处理丢失的值。假设我们的测试数据中有一个实例,它显示outlook为Sunny,但没有属性Humidity的值。另外,假设我们的培训数据有2实例,其outlook为SunnyHumidity低于75,标签为Play。此外,假设培训数据有3实例,其中outlook为SunnyHumidity高于75,标签为Don't Play。因此,对于缺少Humidity属性的测试实例,C4.5算法将返回对应于[Play, Don't Play][0.4, 0.6]的概率分布。
  2. 假设您已经了解决策树如何使用一组特征的信息增益来选择在每个级别上分支的特征,则C4.5算法将对连续间隔属性执行相同的过程,方法是为属性的每一个分割计算信息增益,并选择最佳的属性。这方面的一个例子可以在上面的Humidity属性中看到。C4.5算法测试了湿度属性在65、70、75、78.90时所提供的信息增益,并发现在75下执行分割提供了最大的信息增益。
  3. C4.5通过将决策树中的子树替换为包含子树所有决策或提供最小错误的单个决策节点来执行剪枝。

要获得更多信息,我建议我编写自己的决策树和随机森林算法的优秀资源:https://cis.temple.edu/~giorgio/cis587/readings/id3-c45.html

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42219073

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档