首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何选择连续属性年龄的分割点

如何选择连续属性年龄的分割点
EN

Data Science用户
提问于 2021-04-13 12:23:23
回答 1查看 283关注 0票数 1

上表中,可能分裂点的中点为22.5和35。我计算了每个值的熵和增益,其中35有最小熵和最高增益。是对的吗?

给予高-> (-)和低-> (+)

D<22.5 => 0+,2-,熵(D<22.5) = 0,因为所有的值都属于同一类High。

D>22.5 => 2+,2-,熵(D>22.5) = 1,因为这些值在低类和高级类之间分布均匀。

D<35 => 2+3-,熵(D<35) = -2/6 xlog_2#qcStackCode#(2/6) + 3/6 xlog_2#qcStackCode#⁡(3/6)= 0.5

D>35 => 0+,1-,熵(D>35) = 0,因为所有值都属于同一类High

增益(D,Age>22.5) = 0.918 - 2/6 (0) - 4/6 (1) = 0.2513

增益(D,Age>35) = 0.918 - 5/6 (0.5) - 1/6 (0) = 0.5103

是那么回事吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-04-13 14:28:52

对于35分裂,分母中有一个错误。应该是5,因为D<35的总项数是5

D<35 => 2+3-,熵(D<35) = -2/5Xlog_2#qcStackCode#(2/5)+ 3/5Xlog_2#qcStackCode#⁡(3/5)

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/93008

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档