
上表中,可能分裂点的中点为22.5和35。我计算了每个值的熵和增益,其中35有最小熵和最高增益。是对的吗?
给予高-> (-)和低-> (+)
D<22.5 => 0+,2-,熵(D<22.5) = 0,因为所有的值都属于同一类High。
D>22.5 => 2+,2-,熵(D>22.5) = 1,因为这些值在低类和高级类之间分布均匀。
D<35 => 2+3-,熵(D<35) = -2/6 xlog_2#qcStackCode#(2/6) + 3/6 xlog_2#qcStackCode#(3/6)= 0.5
D>35 => 0+,1-,熵(D>35) = 0,因为所有值都属于同一类High
增益(D,Age>22.5) = 0.918 - 2/6 (0) - 4/6 (1) = 0.2513
增益(D,Age>35) = 0.918 - 5/6 (0.5) - 1/6 (0) = 0.5103
是那么回事吗?
发布于 2021-04-13 14:28:52
对于35分裂,分母中有一个错误。应该是5,因为D<35的总项数是5
D<35 => 2+3-,熵(D<35) = -2/5X
log_2#qcStackCode#(2/5)+ 3/5Xlog_2#qcStackCode#(3/5)
https://datascience.stackexchange.com/questions/93008
复制相似问题