下面这个问题让我很困惑。你能帮我吗?(最好找些学术参考。)
我们通常使用base-2日志函数来计算决策树中的熵,这是因为大多数节点只允许二进制分支吗?
如果我想拥有一个具有多个分支的节点,理论上log2仍然有效吗?
例如,在Xgboost中,训练集输入应该是矩阵的形式,我认为这意味着我们只能将数值作为输入。
非常感谢!
发布于 2018-10-03 18:56:16
对数的基数2几乎肯定是因为我们喜欢用比特来测量熵。这只是一种惯例,有些人用e基代替(nats而不是位)。
我不能谈论Xgboost,但是对于离散决策问题,熵作为一种性能度量发挥作用,而不是直接由于树结构的结果。您可以从熵的定义中计算任意分裂的信息增益(使用任何分支因子)。
如果你想找一本关于信息论和概率的书,我可以强烈推荐MacKay (完整的PDF )。他涵盖了相当多的机器学习和统计。然而,决策树没有被覆盖。
https://stackoverflow.com/questions/52632019
复制相似问题