本文为清华大学最新出版的《机器学习》教材的Learning Notes,书作者是南京大学周志华教授,多个大陆首位彰显其学术奢华。本篇主要介绍了该教材前两个章节的知识点以及自己一点浅陋的理解。 一个样本的特征数为:维数(dimensionality),该西瓜的例子维数为3,当维数非常大时,也就是现在说的“维数灾难”。 西瓜的例子中,我们是想计算机通过学习西瓜的特征数据,训练出一个决策模型,来判断一个新的西瓜是否是好瓜。可以得知我们预测的是:西瓜是好是坏,即好瓜与差瓜两种,是离散值。 下面介绍几种常用的划分方法: 2.3.1 留出法 将数据集D划分为两个互斥的集合,一个作为训练集S,一个作为测试集T,满足D=S∪T且S∩T=∅,常见的划分为:大约2/3-4/5的样本用作训练,剩下的用作测试 例如:假定算法有3 个参数,每个参数仅考虑5 个候选值,这样对每一组训练/测试集就有555= 125 个模型需考察,由此可见:拿下一个参数(即经验值)对于算法人员来说是有多么的happy。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
机器学习的发展阶段 1:推荐书目:周志华<机器学习西瓜书>,李航教授<统计学习方法>,这两本书都用简单的方式介绍了一批重要并且常用的机器学习算法 机器学习所发展的几个重要的阶段: 1符号学习,在人工智能发展的早期 不过我反而认为前些时候出现的迁移学习会给这个问题带来一定的解决方法.尽管现在迁移学习还需要要求双方需要具备独立同分布的条件,但是不同分步之间的迁移学习也许会提前出现. 3:最近出现的比如深度学习和无终止学习等等 由于在空间中每一个点都对应一个坐标向量,因此我们可以把一个事例成为特征向量. 2:有时候整个数据集也可以称为一个样本,因为他们也可以看做一个样本空间的一个采样,同时可以通过上下文的判断可以看出样本是单个事例还是数据集. 3: 表示为第i个样例,其中Yi是属于Y的示例Xi的标记,则Y是所有标记的集合,也称为标记空间或者输出空间.如果我们想要预测离散值,比如说”好人””坏人”,这样的学习任务就可以称之为分类,想要预测的是连续值,比如西瓜成熟度
特点: (1)发现任意蔟 (2)对噪声数据不敏感 (3)一次扫描 (4)计算量大,复杂度高 常用算法:DBSCAN,MDCA,OPTICS等 DBSCAN算法: DBSCAN是一种著名的密度聚类算法,它基于一组
首先,确切地说,这是一本“伴侣书” 类似于咖啡伴侣一样,这本书是周志华教授的“西瓜书”——《机器学习》的伴侣书,它也有一个可爱的名字 ——“南瓜书”. 这是一本与众不同的书。首先,这是一本“伴侣书”。类似于咖啡伴侣一样,这本书是周志华教授的“西瓜书”——《机器学习》的伴侣书,它也有一个可爱的名字——“南瓜书”。 ——徐亦达 悉尼科技大学副教授,机器学习开源讲义作者 3 纸质版做了更多更新 南瓜书正式版在原有的基础上进行了充分的迭代优化:对发布时已有章节进行了完善,未完成章节进行了补充;同时,还补充了大量重难点数学知识 案例2:在推导过程中给出新的解题思路,例如:向量化的应用 案例3:数学知识扩展,例如贝叶斯学派的扩展 4 对于本书有几点阅读建议 首先,这本“南瓜书”要和“西瓜书”配套阅读 南瓜书的最佳使用方法是以西瓜书为主线 本书(俗称“南瓜书”)基于Datawhale 成员自学“西瓜书”时记下的笔记编著而成,旨在对“西瓜书”中重难点公式加以解析,以及对部分公式补充具体的推导细节。
通常训练集和验证集的比例是2/3~4/5 分层抽样的具体程序是:把总体各单位分成两个或两个以上的相互独立的完全的组(如男性和女性),从两个或两个以上的组中进行简单随机抽样,样本相互独立。 交叉验证法 现将数据集D划分为k个大小相似的互斥子集,即D=D_1 \cup D_2 \cup D_3 \ldots \cup D_k, D_i \cap D_j= \varnothing (i \neq
从西瓜书和统计学习方法中学习了决策树的相关知识,同时在网上查找了树的知识点,最重要的是二叉树和树3种的遍历方式 树的知识 决策树 剪枝问题 ? 的信息熵定义为: Ent(D)=-\sum^K_{k=1} p_klog_2{p_k} 比如:某个事件发生的结果有3种情形,出现的概率分别是: 结果1 结果2 结果3 $\frac{1}{3}$ $ 数据样本取自西瓜书 ? D_1,D_2,D_3,分别占比为6:6:5,每个子集数据中占比为(3:3):(4:2):(1:4),那么3个子节点的信息熵分别为: Ent(D_1)=-(\frac{3}{6}log_2\frac{3 特点 在决策树生成的过程中,对每个节点划分前先进行预估 如果当前节点的划分不能提高泛化能力,停止划分 直接将当前节点划分叶子节点 通过西瓜书的例子来讲解 采用留出法,将数据分成训练集和验证集(通过双横线区分
此笔记是之前写的(未建站时) 点击图片查看清楚点:)
小编选择以简单浏览为主,看不懂的无需太过在意,跳过即可,重要的知识点后面还会再提到的,看多了自然就明白咯~
2.1:经验误差与过拟合 通常我们把分类错误的样本数占样本总数的比例称为“错误率”,相应的。精度即“1-错误率”。更一般的,我们把学习器的实际预测输出和样本的真实输出之间的差异称为“误差”。 *需要注意,这里所说的误差均是指的是误差期望。 学习器在训练集上的误差称为“训练误差”或者“经验误差”,在新样本上的误差称之为“泛化误差”。 我们现在努力做得是把经验误差最小化。我们实际希望的,是在样本上能表现出来的很好的学习器。为了达到这个目的,应该从训练样本上尽可能的学出适用于所有潜在样本的“普遍规律”,这样才能在
朴素贝叶斯python代码实现(西瓜书) 摘要: 朴素贝叶斯也是机器学习中一种非常常见的分类方法,对于二分类问题,并且数据集特征为离散型属性的时候, 使用起来非常的方便。 对应的西瓜书数据集为 色泽 根蒂 敲声 纹理 脐部 触感 好瓜 青绿 蜷缩 浊响 清晰 凹陷 硬滑 是 乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 是 乌黑 蜷缩 浊响 清晰 凹陷 硬滑 是 青绿 蜷缩 沉闷 : 0.09090909090909091}, "触感": {"硬滑": 0.7, "软粘": 0.3}}}} 预测值 正取值 0 是 是 1 是 是 2 是 是 3
点击上方“Python与算法社区”,选择“星标”公众号 相信大家都知道周志华的机器学习书,俗称西瓜书,被我们视为机器学习的入门和经典教材。
西瓜书作为该领域的入门教材,在内容上尽可能涵盖机器学习基础知识的各方面。为了使尽可能多的读者通过本书对机器学习有所了解, 作者试图尽可能少地使用数学知识,是一本非看不可的书!!! TeFuirnever/article/details/96278334 习题参考答案 https://blog.csdn.net/TeFuirnever/article/details/96279049 第3章
决策树ID3原理及R语言python代码实现(西瓜书) 摘要: 决策树是机器学习中一种非常常见的分类与回归方法,可以认为是if-else结构的规则。 ID3算法 决策树基于信息熵增益的ID3算法步骤如下: 如果数据集类别只有一类,选择这个类别作为,标记为叶节点。 从数据集的所有特征中,选择信息熵增益最大的作为节点,特征的属性分别作为节点的边。 <- subset(dataSet, dataSet[c(k)] == m) # entropyDv <- calEntropy(data3[, length(data3)]) # 总结: ID3算法简洁清晰,符合人类思路方式。 决策树的解释性强,可视化后也方便理解模型和验证正确性。 ID3算法时候标签类特征的样本,对应具有连续型数值的特征,无法运行此算法。 对应的西瓜书数据集为 色泽 根蒂 敲声 纹理 脐部 触感 HaoGua 青绿 蜷缩 浊响 清晰 凹陷 硬滑 是 乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 是 乌黑 蜷缩 浊响 清晰 凹陷 硬滑 是 青绿 蜷缩
习题 注: 其中: 真正例(TP)【好的西瓜,模型认为是好瓜】 假正例(FP)【坏的西瓜,模型认为是好瓜】 假反例(FN)【好的西瓜,模型认为是坏瓜】 真反例(TN)【坏的西瓜,模型认为是坏瓜】 混淆矩阵 例:150个数据分为3类
例如:小聊子(相当于学习器)想给自己的朋友分个类别,如果,我秉着每个人都是独一无二的这样的政治教课书理论,好的,每一个人都是一个类,然而,这显然是不合理的,这就叫过拟合。
一个样本的特征数为:维数(dimensionality),该西瓜的例子维数为3,当维数非常大时,也就是现在说的“维数灾难”。 西瓜的例子中,我们是想计算机通过学习西瓜的特征数据,训练出一个决策模型,来判断一个新的西瓜是否是好瓜。可以得知我们预测的是:西瓜是好是坏,即好瓜与差瓜两种,是离散值。 我们预测西瓜是否是好瓜的过程中,很明显对于训练集中的西瓜,我们事先已经知道了该瓜是否是好瓜,学习器通过学习这些好瓜或差瓜的特征,从而总结出规律,即训练集中的西瓜我们都做了标记,称为标记信息。 但也有没有标记信息的情形,例如:我们想将一堆西瓜根据特征分成两个小堆,使得某一堆的西瓜尽可能相似,即都是好瓜或差瓜,对于这种问题,我们事先并不知道西瓜的好坏,样本没有标记信息。 留出法 将数据集D划分为两个互斥的集合,一个作为训练集S,一个作为测试集T,满足 D=S∪T且S∩T=∅ 常见的划分为:大约2/3-4/5的样本用作训练,剩下的用作测试。
线性模型形式简单、易于建模,许多功能更为强大的非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得。
本章介绍了评估模型能力的方法、性能度量的关键参数、比较检验不同学习器能力的方法,以及偏差、方差、噪声的定义与实际意义。模型的泛化能力取决于学习算法的能力、数据量以及学习任务的难度,根据不同的性能度量参数,得出的结论是不一定相同的,需要根据实际需要来选择合适的性能度量参数,评估选择出最佳的模型