本文为清华大学最新出版的《机器学习》教材的Learning Notes,书作者是南京大学周志华教授,多个大陆首位彰显其学术奢华。本篇主要介绍了该教材前两个章节的知识点以及自己一点浅陋的理解。 对于一条记录,如果在坐标轴上表示,每个西瓜都可以用坐标轴中的一个点表示,一个点也是一个向量,例如(青绿,蜷缩,浊响),即每个西瓜为:一个特征向量(feature vector)。 西瓜的例子中,我们是想计算机通过学习西瓜的特征数据,训练出一个决策模型,来判断一个新的西瓜是否是好瓜。可以得知我们预测的是:西瓜是好是坏,即好瓜与差瓜两种,是离散值。 我们预测西瓜是否是好瓜的过程中,很明显对于训练集中的西瓜,我们事先已经知道了该瓜是否是好瓜,学习器通过学习这些好瓜或差瓜的特征,从而总结出规律,即训练集中的西瓜我们都做了标记,称为标记信息。 但也有没有标记信息的情形,例如:我们想将一堆西瓜根据特征分成两个小堆,使得某一堆的西瓜尽可能相似,即都是好瓜或差瓜,对于这种问题,我们事先并不知道西瓜的好坏,样本没有标记信息。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
机器学习的发展阶段 1:推荐书目:周志华<机器学习西瓜书>,李航教授<统计学习方法>,这两本书都用简单的方式介绍了一批重要并且常用的机器学习算法 机器学习所发展的几个重要的阶段: 1符号学习,在人工智能发展的早期 表示为第i个样例,其中Yi是属于Y的示例Xi的标记,则Y是所有标记的集合,也称为标记空间或者输出空间.如果我们想要预测离散值,比如说”好人””坏人”,这样的学习任务就可以称之为分类,想要预测的是连续值,比如西瓜成熟度
密度聚类假设聚类结构通过样本分布的紧密程度。此算法是基于密度的角度来考察样本之间的连接性,并基于连接性不断扩展聚类簇最后获得最终的结果。他通过判断样本在区域空间内是否大于某个阈值来决定是否将其放到与之相近的样本中。
首先,确切地说,这是一本“伴侣书” 类似于咖啡伴侣一样,这本书是周志华教授的“西瓜书”——《机器学习》的伴侣书,它也有一个可爱的名字 ——“南瓜书”. 这是一本与众不同的书。首先,这是一本“伴侣书”。类似于咖啡伴侣一样,这本书是周志华教授的“西瓜书”——《机器学习》的伴侣书,它也有一个可爱的名字——“南瓜书”。 案例2:在推导过程中给出新的解题思路,例如:向量化的应用 案例3:数学知识扩展,例如贝叶斯学派的扩展 4 对于本书有几点阅读建议 首先,这本“南瓜书”要和“西瓜书”配套阅读 南瓜书的最佳使用方法是以西瓜书为主线 ,如果在阅读“西瓜书”时对公式疑惑或对概念理解不畅,可以通过“南瓜书”快速定位公式并进行推导,从而深入理解. 本书(俗称“南瓜书”)基于Datawhale 成员自学“西瓜书”时记下的笔记编著而成,旨在对“西瓜书”中重难点公式加以解析,以及对部分公式补充具体的推导细节。
将数据拆分为训练数据和验证数据,可以减小过拟合的可能性。但这样就必须拆分出和训练集数据分布几乎一致的验证数据。
从西瓜书和统计学习方法中学习了决策树的相关知识,同时在网上查找了树的知识点,最重要的是二叉树和树3种的遍历方式 树的知识 决策树 剪枝问题 ? 数据样本取自西瓜书 ? 特点 在决策树生成的过程中,对每个节点划分前先进行预估 如果当前节点的划分不能提高泛化能力,停止划分 直接将当前节点划分叶子节点 通过西瓜书的例子来讲解 采用留出法,将数据分成训练集和验证集(通过双横线区分
此笔记是之前写的(未建站时) 点击图片查看清楚点:)
小编选择以简单浏览为主,看不懂的无需太过在意,跳过即可,重要的知识点后面还会再提到的,看多了自然就明白咯~
2.1:经验误差与过拟合 通常我们把分类错误的样本数占样本总数的比例称为“错误率”,相应的。精度即“1-错误率”。更一般的,我们把学习器的实际预测输出和样本的真实输出之间的差异称为“误差”。 *需要注意,这里所说的误差均是指的是误差期望。 学习器在训练集上的误差称为“训练误差”或者“经验误差”,在新样本上的误差称之为“泛化误差”。 我们现在努力做得是把经验误差最小化。我们实际希望的,是在样本上能表现出来的很好的学习器。为了达到这个目的,应该从训练样本上尽可能的学出适用于所有潜在样本的“普遍规律”,这样才能在
朴素贝叶斯python代码实现(西瓜书) 摘要: 朴素贝叶斯也是机器学习中一种非常常见的分类方法,对于二分类问题,并且数据集特征为离散型属性的时候, 使用起来非常的方便。 对应的西瓜书数据集为 色泽 根蒂 敲声 纹理 脐部 触感 好瓜 青绿 蜷缩 浊响 清晰 凹陷 硬滑 是 乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 是 乌黑 蜷缩 浊响 清晰 凹陷 硬滑 是 青绿 蜷缩 沉闷
西瓜书作为该领域的入门教材,在内容上尽可能涵盖机器学习基础知识的各方面。为了使尽可能多的读者通过本书对机器学习有所了解, 作者试图尽可能少地使用数学知识,是一本非看不可的书!!!
点击上方“Python与算法社区”,选择“星标”公众号 相信大家都知道周志华的机器学习书,俗称西瓜书,被我们视为机器学习的入门和经典教材。
习题 注: 其中: 真正例(TP)【好的西瓜,模型认为是好瓜】 假正例(FP)【坏的西瓜,模型认为是好瓜】 假反例(FN)【好的西瓜,模型认为是坏瓜】 真反例(TN)【坏的西瓜,模型认为是坏瓜】
例如:小聊子(相当于学习器)想给自己的朋友分个类别,如果,我秉着每个人都是独一无二的这样的政治教课书理论,好的,每一个人都是一个类,然而,这显然是不合理的,这就叫过拟合。
机器学习的一些基本术语 假设我们收集了一批西瓜的数据,例如:(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), (色泽=浅自;根蒂=硬挺;敲声=清脆)……每对括号内是一个西瓜的记录 对于一条记录,如果在坐标轴上表示,每个西瓜都可以用坐标轴中的一个点表示,一个点也是一个向量,例如(青绿,蜷缩,浊响),即每个西瓜为:一个特征向量(feature vector)。 西瓜的例子中,我们是想计算机通过学习西瓜的特征数据,训练出一个决策模型,来判断一个新的西瓜是否是好瓜。可以得知我们预测的是:西瓜是好是坏,即好瓜与差瓜两种,是离散值。 我们预测西瓜是否是好瓜的过程中,很明显对于训练集中的西瓜,我们事先已经知道了该瓜是否是好瓜,学习器通过学习这些好瓜或差瓜的特征,从而总结出规律,即训练集中的西瓜我们都做了标记,称为标记信息。 但也有没有标记信息的情形,例如:我们想将一堆西瓜根据特征分成两个小堆,使得某一堆的西瓜尽可能相似,即都是好瓜或差瓜,对于这种问题,我们事先并不知道西瓜的好坏,样本没有标记信息。
线性模型形式简单、易于建模,许多功能更为强大的非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得。
本章介绍了评估模型能力的方法、性能度量的关键参数、比较检验不同学习器能力的方法,以及偏差、方差、噪声的定义与实际意义。模型的泛化能力取决于学习算法的能力、数据量以及学习任务的难度,根据不同的性能度量参数,得出的结论是不一定相同的,需要根据实际需要来选择合适的性能度量参数,评估选择出最佳的模型
写作目的记录学习西瓜书的经过、总结、DataWhale 打卡基础概念数据集 (data set)若干个“样本”组成的数据集合(sample)样本关于一个事件或对象的描述属性(attribute)/ 特征 在具体现实问题中,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能学习总结西瓜书第一章包含很多的概念,也有一些比较重要的结论,只有先捋清楚基础概念才能顺利理解“机器学习到底是什么 ”在学习过程中先看的南瓜书 ,再看的西瓜书,可以看出,西瓜书的概念更多,有更加细致的介绍,而南瓜书则偏向对西瓜书的公式进行推导,可以先看南瓜书再看西瓜书,遇到不懂的名词后会更加有兴趣了解具体情况,但这样的话看起来比较难受 ,因为公式太多……还是应当先看西瓜书再看南瓜书实际上,书上的公式也没有那么难推导,自己思考+参考南瓜书还是能够理解的,不要让畏难情绪压倒自己