首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >C4.5为连续属性选择分割点(阈值)

C4.5为连续属性选择分割点(阈值)
EN

Stack Overflow用户
提问于 2015-03-07 19:36:49
回答 1查看 1.4K关注 0票数 1

使用“打高尔夫”或“玩球”数据(在底部列出),选择根节点,我们查看Outlook、温度、湿度和风,看看哪一个有最高的GainRatio。

现在,将选择Outlook作为具有最高GainRatio的属性。然而,我感到困惑的是,湿度(一个连续属性)选择了具有GainRatio=0.1087,的拆分点80,而65具有更高的GainRatio=0.1285.。分裂点80确实有更高的增益,但没有GainRatio。

我见过文献粗略地说过“选择一个连续属性的分裂点,使其获得最大的收益”.这似乎违反了我的直觉,即拆分点仅基于增益,而不是在比较您选择的最高GainRatio作为下一个决策节点的所有属性时。

我希望能在这里有所澄清。

谢谢。

计算如下:

展望:

增益= 0.2467

SplitInfo = 1.5774

增益比= 0.1564

温度:

增益= 0.0292

SplitInfo = 1.5566

增益比= 0.0187

湿度:

可能分裂点={ 65、70、75、78、80、85、90、95、96 }

分裂65:

增益= 0.0477

SplitInfo = 0.3712

增益比= 0.1285

分裂80:

增益= 0.1022

SplitInfo = 0.9402

增益比= 0.1087

风:

增益= 0.0481

SplitInfo = 0.9852

增益比= 0.0488

数据:

代码语言:javascript
复制
Outlook  Temperature  Humidity  Wind    Play
--------------------------------------------
sun        hot          85      low     no
sun        hot          90      high    no
overcast   hot          78      low     yes
rain       sweet        96      low     yes
rain       cold         80      low     yes
rain       cold         70      high    no
overcast   cold         65      high    yes
sun        sweet        95      low     no
sun        cold         70      low     yes
rain       sweet        80      low     yes
sun        sweet        70      high    yes
overcast   sweet        90      high    yes
overcast   hot          75      low     yes
rain       sweet        80      high    no
EN

回答 1

Stack Overflow用户

发布于 2017-02-20 15:30:15

在选择属性时,通过考虑分支的数目和大小,利用信息增益比来减少对具有大量值的属性的偏倚。在这里,我们已经选择了属性。因此,我们应该尽量使信息收益最大化,而不是信息增益比。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/28919094

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档