我正在阅读“人工智能”第三版“决策树”(第720页)的主题。本书描述了在我们通过选择属性来分割训练集(示例)之后可能发生的一些情况。提到的案件之一是
如果没有剩下的示例,这意味着没有观察到这种属性值组合的示例,并且我们返回根据用于构造节点父级的所有示例的多个分类计算的默认值。
据我所知,多数派是指多数人原则。但我无法理解上述情况,即何时会发生这种情况。决策树的一些例子,其中上述情况变为真。
发布于 2016-05-14 18:44:41
将问题想象为构建一个2D的出现计数表,其中列表示要考虑的某些特性或类,而行表示其他变量的特定配置。
例如,
X Y Z | class counts
------+-------------
1 1 1 | ...
1 1 2 | ...
1 1 3 | ...该表表示培训集的联合分布情况。
在训练中可能看不到X,Y和Z(例如1,3,1)的特殊组合。你拥有的变量越多,你就越有可能遇到看不见的组合。如果有10个变量,每个变量有两个状态,那么这些变量有1024个可能的配置。如果每种状态都有三种状态,那么配置的数量将是3^ 10,等等。
坦率地说,对于任何缺少行的特定列,我都会使用1/numberCols,因为您实际上没有关于它的任何信息。您可以对每一列使用1/Sum(行),但这可能不必要地偏置结果。取决于数据。
https://stackoverflow.com/questions/37226520
复制相似问题