当我阅读关于决策树的scikit--学习用户手册时,他们提到
CART (分类和回归树)与C4.5非常相似,但它的不同之处在于它支持数值目标变量(回归),不计算规则集。CART使用特征和阈值构造二叉树,在每个节点上获得最大的信息增益。
我不明白C4.5算法在哪里计算规则集(我甚至不知道规则集是什么意思)。它与购物车本质上是一样的,只不过它使用吉尼指数而不是交叉熵。
请有人详细解释哪些规则集是什么以及它们在C4.5中是如何使用的?
发布于 2022-06-20 17:30:13
无论您正在运行哪个决策树算法: ID3、C4.5、CART、CHAID或回归树(CART)。他们都在寻找提供最高信息增益的功能。然后,他们为发现的特性添加一个决策规则,并递归地为子数据集构建另一个决策树,直到他们做出决定为止。
C4.5是ID3的进化,由同一作者提出(Quinlan,1993年)。C4.5算法通过递归分割记录为给定数据集生成决策树。
决策树算法和朴素贝叶斯算法一样,是基于条件概率的。与朴素的贝叶斯不同,决策树生成规则。规则集或简单地说,决策规则由许多规则组成。每个规则包含一个谓词和一个预测的类值,以及在训练或测试时收集的关于规则性能的一些信息。
从决策树派生规则集很容易:为决策树中的每个路径从根到叶编写规则。在这个规则中,左手边很容易地由节点的标签和弧的标签构建。
生成的规则集可以简化:
让LHS成为规则的左边。通过消除LHS的一些条件,从LHS中得到LHS。在这个规则中,如果训练集的子集分别满足LHS和LHS‘,我们当然可以用LHS’代替LHS。
可以通过使用元条件(如“如果不适用其他规则”)来消除规则。
https://datascience.stackexchange.com/questions/23253
复制相似问题