首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏7DGroup

    性能分析之分析决策树2

    千江有水千江月,万里无云万里天》今天咱们谈谈7DGroup创始人高楼老师的性能分析之决策树分析法二。 分析树图一 ?

    74030发布于 2019-12-10
  • 来自专栏数据科学(冷冻工厂)

    机器学习经典算法:决策树2

    概述决策树(Decision Tree)是有监督学习中的一种算法,并且是一种基本的分类与回归的方法。决策树有两种:分类树和回归树。 一般来说,决策树只是一个嵌套 if-else 条件的结构。在数学上,决策树使用平行于任何一个轴的超平面将坐标系切割成超长方体。树形结构图片2. 构建过程包括:特征选择、决策树的生成和决策树的剪枝特征选择标准:希望决策树的分支节点所包含的样本尽可能属于同一类别,也就是节点的纯度(purity)越来越高。 数据集总行数 iset = dataSet.iloc[:,-1].value_counts() #标签的所有类别 p = iset/n #每一类标签所占比 ent = (-p*np.log2( 递归构建ID3构建决策树的算法有很多,比如ID3、C4.5和CART,本文选择ID3算法。

    56220编辑于 2023-01-19
  • 来自专栏数据科学(冷冻工厂)

    机器学习经典算法:决策树2

    概述 决策树(Decision Tree)是有监督学习中的一种算法,并且是一种基本的分类与回归的方法。决策树有两种:分类树和回归树。 一般来说,决策树只是一个嵌套 if-else 条件的结构。在数学上,决策树使用平行于任何一个轴的超平面将坐标系切割成超长方体。 树形结构 树形结构 2. 构建 过程包括:特征选择、决策树的生成和决策树的剪枝 特征选择 标准:希望决策树的分支节点所包含的样本尽可能属于同一类别,也就是节点的纯度(purity)越来越高。 iset = dataSet.iloc[:,-1].value_counts() #标签的所有类别 p = iset/n #每一类标签所占比 ent = (-p*np.log2( 递归构建 ID3 构建决策树的算法有很多,比如ID3、C4.5和CART,本文选择ID3算法。

    53320编辑于 2023-02-27
  • 来自专栏木东居士的专栏

    决策树2: 特征选择中的相关概念

    0x00 前言 决策树学习算法有三个步骤: 特征选择 决策树生成 决策树剪枝 特征选择,就是决策树的构造过程。 为了找到最优的划分特征,我们需要先了解一些信息论的知识。 在上面这棵“相亲决策树”中,对于结果(叶子结点),有随机变量Y={见,不见}。我们可以统计出,见的个数占2/6=1/3;不见的个数占4/6=2/3。那么变量Y的熵,可以根据公式计算得到: 。 假设在信用卡逾期风险预测场景中,有如下数据: 信用级别 工资级别 是否逾期 1 1 是 2 1 否 3 2 是 4 2 否 那么此时我们分别计算“信用级别”和“工资级别”条件下“预期”的条件熵。 A = H(是否逾期|信用级别)= p(信用等级=1)H(是否逾期|信用等级=1)+ p(信用等级=2)H(是否逾期|信用等级=2)+ p(信用等级=3)H(是否逾期|信用等级=3)+ p(信用等级=4 我们希望在不断划分的过程中,决策树的分支节点所包含的样本尽可能属于同一类,即节点的“纯度”越来越高。 而选择最优划分特征的标准(上面介绍的这些概念)不同,也导致了决策树算法的不同。

    2.1K10发布于 2019-12-23
  • 来自专栏往期博文

    【sklearn】2.分类决策树实践——Titanic数据集

    在上一篇【sklearn】1.分类决策树学习了sklearn决策树的一些接口后,现在利用kaggle上泰坦尼克号的数据集进行实践。 '].fillna(data['Age'].mean()) # 删掉含有缺失值的行 data = data.dropna() # 默认axis=0 # 将[Embarked]的文字部分替换成0,1,2( ) # 随机取出数据,索引会变化,下面重新纠正索引 for i in [Xtrain, Xtest, Ytrain, Ytest]: i.index = range(i.shape[0]) 决策树构建 min_impurity_decrease’: 0.0, ‘min_samples_leaf’: 1, ‘splitter’: ‘best’} 最佳准确率:82.3% 总结 即使经过调参,准确率依旧提升不多,说明决策树对该数据集的效果并不理想

    1.6K10编辑于 2022-06-14
  • 来自专栏木东居士的专栏

    决策树1:初识决策树

    比如扔一枚骰子(骰子每个面上只标记1或2),现在告诉你扔了n次骰子其中有k次朝上的是1;然后问你这个骰子标记为1的面所占的比例w是多少? datasets iris = datasets.load_iris()X = iris.data[:,2:] # iris有四个特征,这里取后两个,形成一个坐标点y = iris.target# 绘图 plt.scatter(X[y==0,0],X[y==0,1])plt.scatter(X[y==1,0],X[y==1,1])plt.scatter(X[y==2,0],X[y==2,1])plt.show 4.2 进行分类 from sklearn.tree import DecisionTreeClassifier# 创建决策树对象,最大深度max_depth为2层,criterion评判标准为entropy ],X[y==2,1])plt.show() ?

    1.6K20发布于 2019-12-23
  • 来自专栏数据处理

    决策树

    决策树归纳的基本算法是贪心算法,它以自顶向下递归各个击破的方式构造决策树。 贪心算法:在每一步选择中都采取在当前状态下最好的选择。 在其生成过程中,分割方法即属性选择度量是关键。 根据分割方法的不同,决策树可以分为两类:基于信息论的方法(较有代表性的是ID3、C4.5算法等)和最小GINI指标方法(常用的有CART,SLIQ及SPRINT算法等)。

    79140发布于 2018-06-01
  • 来自专栏用户画像

    决策树

    https://blog.csdn.net/jxq0816/article/details/82829502 决策树通过生成决策规则来解决分类和回归问题。 但是由于决策树在理论上能无限制地划分节点 前剪枝:在划分节点之前限制决策树的复杂度,通过一些阈值来限制决策树的生长,比如max_depth、min_sample_split等参数。 后剪枝:在决策树构建完成之后,通过剪枝集修改树的结构,降低它的复杂度。 这两种方法相比,前剪枝的实现更加容易,也更加可控,因为在实际应用中应用得更加广泛。 决策树最大的缺点在于模型的最后一步算法过于简单:对于分类问题,只考虑叶子节点里哪个类别占比最大;而对于回归问题,则计算叶子节点内数据的平均值。这导致它在单独使用时,预测效果不理想。 因此在实际中,决策树常常被用来做特征提取,与其他模型联结起来使用。

    67030发布于 2018-09-29
  • 来自专栏小明的博客

    决策树

    决策树学习 决策树是一种用来进行分类和回归的无参有监督学习方法,其目的是创建一种模型,从模型特征中学习简单的决策远着呢,从而预测一个目标变量的值。 对训练好的决策树模型,可以使用predict()方法对新的样本进行预测。 sklearn.tree模块提供了训练的决策树模型的文本描述输出方法export_graphviz(),如果要查看训练的决策树模型参数,可以使用该方法,其格式为: sklearn.tree.export_graphviz ,观察对新的数据的决策结果 print('新的数据为[1,30,6,False]时的决策结果为:',clf.predict([[1,30,6,False]])) print('新的数据为[2,25,2, True]时的决策结果为:',clf.predict([[2,25,2,True]])) print('新的数据为[1,25,2,True]时的决策结果为:',clf.predict([[1,25,2,

    82120编辑于 2022-09-05
  • 来自专栏海天一树

    决策树

    一、 决策树简介 决策树是一种特殊的树形结构,一般由节点和有向边组成。其中,节点表示特征、属性或者一个类。而有向边包含有判断条件。 这就构成了一颗简单的分类决策树。 ? 1.jpg ? 2.jpg 二、 相关知识 请参考周志华《机器学习》第4章:决策树 注意,第75页有一行内容:信息熵的值越小,则样本集合的纯度越高。 第3个属性取值为2时,分类为0;取值为4时,分类为1。 此时的决策树为 ? 第一条数据,第5个属性值是2,需要再判断第3个属性,第3个属性的值为4,根据决策树得出的预测分类为1,与实际结果吻合 第二条数据,第5个属性值是1,根据决策树得出的预测分类为0,与实际结果吻合 第三条数据 ,第5个属性值是2,需要再判断第3个属性,第3个属性的值为2,根据决策树得出的预测分类为0,与实际结果吻合 第四条数据,第5个属性值是0,根据决策树得出的预测分类为0,与实际结果吻合 第五条数据,第5个属性值是

    1.2K20发布于 2018-08-17
  • 来自专栏全栈程序员必看

    决策树的原理_决策树特征选择

    决策树的原理:根据树结构进行决策,可以用于分类和回归。一颗决策树包括一个根结点、若干个内部节点和若干个叶节点。 从根节点出发,对每个特征划分数据集并计算信息增益(或者增益率,基尼系数),选择信息增益最大的特征作为划分特征,依次递归,直至特征划分时信息增益很小或无特征可划分,形成决策树决策树 优点 1. 计算复杂度不高; 2. 输出结果易于理解; 3. 不需要数据预处理; 4. 对中间值的缺失不敏感; 5. 可以处理不相关特征数据; 6. 对于异常点的容错率高 缺点 1. 可能产生过拟合的现象; 2. 对于比较复杂的关系很难学习; 3. 样本发生一点点变化会导致树的结构剧烈变动 决策树的算法:ID3算法、C4.5算法、CART算法 算法 优缺点 ID3算法 不足: 无法处理连续特征;信息增益使得算法偏向于取值较多的特征;没有考虑缺失值和过拟合的问题

    63910编辑于 2022-10-03
  • 来自专栏数据分析与机器学习

    决策树

    一、决策树学习的基本算法 ---- 输入: 训练集:D= \{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\} ;属性集:A= \{a_1,a_2,..,a_d\} 。 ---- 二、评价指标 信息增益 Ent(D) = -\sum_{k = 1}^{|Y|}p_klog_2(p_k) (|Y|为目标变量集合),Ent(D)的值越小,则D的纯度越高。 Gain\_ratio = \frac{Gain(D,a)}{IV(a)} 其中, IV(a) = -\sum_{v = 1}^V\frac{|D^v|}{|D|}log_2\frac{|D^v|}{| 总结: 对信息增益和基尼系数进行理论分析显示,它们仅在2%的情况下会有所不同;注意对于连续变量,由于离散化的方式不同,可能会存在差异。 设树T的叶节点个数为|T|, 是树T的叶节点,该叶节点有N_t个样本点,其中k类的样本点有N_{tk}个(k = 1,2,3,...

    1.1K41发布于 2019-11-28
  • 来自专栏大龄程序员的人工智能之路

    决策树

    决策树(decision tree)是一类常见的机器学习方法。顾名思义,决策树是基于树结构来进行决策的,这恰是人类在面临决策问题时一种很自然的处理机制。 一颗决策树包含一个根节点、若干个内部节点和若干个叶节点。叶节点对应于决策结果,其他每个节点则对应于一个属性测试。 ? 决策树学习的目的是从样本数据产生一颗泛化能力强的决策树,其基本流程遵循简单且直观的“分而治之”策略: Function createBranch 检测数据集中的每个子项是否属于同一分类: If

    69420发布于 2019-07-01
  • 来自专栏Coder的技术之路

    决策树

    一颗决策树应运而生: ? 决策树是一个分类模型,是运用已有资料训练模型,然后运用到未知类别的事物身上,从而确定该事物的类别。 就像上面故事中未曾谋面的男主人公,虽然见或不见,他就在那里,不悲不喜,但他到底属于的哪一类,就需要用上图所示的决策树来决定。 决策树的精神是要将目标属性的混乱程度降到最低。。。 怎样进行决策呢: 类别:P N 对应域 u1 、u2 属性: 天气A1 :晴、多云、雨; 气温A2:冷、适中、热; 湿度A3:高、正常:风A4:有、无。 先验概率:P(u1)=9/14 —|— P(u2)=5/14 先验熵:H(u)=-9/14*log(9/14)-5/14*log(5/14)=0.94 对天气A1,晴v1、多云v2、雨v3 p (v1)=5/14、p(v2)=4/14、p(v3)=5/14 p(u1|v1)=2/5、p(u2|v1)=3/5 H(u|v1)=-2/5*log(2/5)-3/5*log(3/5)=0.97、同理H

    47730发布于 2021-05-14
  • 来自专栏mantou大数据

    决策树

    决策树学习通常包括 3 个步骤: 特征选择 决策树的生成 决策树的修剪 1.1 决策树场景 场景一:二十个问题 有一个叫 “二十个问题” 的游戏,游戏规则很简单:参与游戏的一方在脑海中想某个事物,其他参与者向他提问 2. 决策树原理 熵:undefined熵(entropy)指的是体系的混乱的程度,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。 实战案例 3.1 项目概述 根据以下 2 个特征,将动物分成两类:鱼类和非鱼类。 3] [1, 2, 3, [4, 5, 6]] [1, 2, 3, [4, 5, 6], 7, 8, 9] ''' --- 1 决策树维基百科: https://zh.wikipedia.org/wiki/%E5%86%B3%E7%AD%96%E6%A0%91 2《机器学习实战》 -- Peter Harrington

    2.6K190发布于 2018-04-21
  • 来自专栏计算机视觉理论及其实现

    决策树

    顾名思义,决策树是基于树结构来进行决策的,这恰是人类在面临决策问题时的一种很自然的处理机制。例如,我们要对“这是好瓜吗?” 决策树学习的目的是为了产生一颗泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单直观的“分而治之”策略,算法如下所示, 输入:训练集 属性集 过程:函数 生成节点node. if 显然,决策树的生成是一个递归过程,在决策树基本算法中,有三种情形会导致递归返回:当节点包含的样本全属于同一类别,无需划分当前属性集为空,或是所有样本在所有属性上取值相同,无法划分当前划分节点包含的样本集合为空 ,不能划分在第(2)中情况下,我们把当前节点标记为叶节点,并将其类别设定为该类别所含样本最多的类别;在第(3)种倾向下,同样把当前结点标记为叶结点,但将其类别设定为其父结点所含最多的类别。 注意这两种情形的处理实质不同:情形(2)是在利用当前结点的后验分布,而情形(3)则是把父结点的样本分布作为当前结点的先验分布。

    1.3K20编辑于 2022-09-03
  • 来自专栏iOSDevLog

    决策树

    决策树(Decision Tree) 机器学习里面的算法与编程语言里面的算法不大一样,主要是指数学上面的算法,而不是数据结构相关的算法。 不过机器学习里的与种算法叫做决策树,本质上就是编程语言中数据结构里面的树结构。 决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。 分类树(决策树)是一种十分常用的分类方法。

    60140发布于 2018-07-03
  • 来自专栏PPV课数据科学社区

    【学习】R语言与机器学习学习笔记(2决策树算法

    算法二:决策树算法 决策树定义 首先,我们来谈谈什么是决策树。我们还是以鸢尾花为例子来说明这个问题。 这种从数据产生决策树的机器学习技术叫做决策树学习, 通俗点说就是决策树,说白了,这是一种依托于分类、训练上的预测树,根据已知预测、归类未来。 先说说构造的基本步骤,一般来说,决策树的构造主要由两个阶段组成:第一阶段,生成树阶段。选取部分受训数据建立决策树决策树是按广度优先建立直到每个叶节点包括相同的类标记为止。第二阶段,决策树修剪阶段。 用剩余数据检验决策树,如果所建立的决策树不能正确回答所研究的问题,我们要对决策树进行修剪直到建立一棵正确的决策树。这样在决策树每个内部节点处进行属性值的比较,在叶节点得到结论。 ; (7) 调用cartformtree(T1); (8) 调用cartformtree(T2); 以鸢尾花数据集为例,使用cart算法,得到决策树: 要实现

    1.2K90发布于 2018-04-19
  • 来自专栏用户8739990的专栏

    决策树适用范围 决策树的优势

    下面就来看看决策树适用范围是什么吧。 image.png 决策树适用范围 现在决策树已经比较成熟,也运用到了各个不同的领域中,其中有人工智能、医疗诊断、规划理论、认知科学以及工程、数据挖掘等等。 执行每一个方案都会有不同的结果,对决策者来说有胜算也有风险,所以采用决策树来解决这些问题,应该是比较明智的选择。 决策树的优势 建立决策树模型过程中比较简单,而且算法、决策规则很容易理解。 采用决策树模型可以给用户提供可视化和直观化,全面掌握具体情况。决策树的应用范围比较广,无论是分类还是回归,都是可以使用决策树,同时还能根据类别进行不同的分类。 决策树即可以处理数值型的样本,还能处理连续的样本。 决策树适用范围和决策树的优势,大家已经有了了解。 虽然决策树有很多的优势,当然也有它的一些缺点,决策树总是会在训练数据时,出现比较复杂的结构,就需要进行大量的过拟合。

    4.4K10发布于 2021-06-17
  • 来自专栏人工智能

    C4.5决策树及CART决策树

    学习目标 了解信息增益率的计算公式 知道ID3 和 C4.5决策树的优缺点 了解基尼指数的计算公式 了解基尼指数对于不同特征的计算方式 了解回归决策树的构建原理 1. 1.1信息增益率计算举例 特征1的信息增益率: 信息增益:0.5408520829727552 分裂信息:-4/6*math.log(4/6, 2) -2/6*math.log(2/6, 2)=0.9182958340544896 Cart树简介 Cart模型是一种决策树模型,它即可以用于分类,也可以用于回归,其学习算法分为下面两步: (1)决策树生成:用训练数据生成决策树,生成树尽可能大 (2决策树剪枝:基于损失函数最小化的剪枝 这里可以说一个公式,n个属性,可以分出(2^n-2)/2种情况。 我们知道,决策树算法对训练集很容易过拟合,导致泛化能力很差,为解决此问题,需要对CART树进行剪枝。 CART剪枝算法从“完全生长”的决策树的底端剪去一些子树,使决策树变小,从而能够对未知数据有更准确的预测,也就是说CART使用的是后剪枝法。

    58710编辑于 2024-07-30
领券