首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏用户画像

    西瓜-绪论

    本文为清华大学最新出版的《机器学习》教材的Learning Notes,作者是南京大学周志华教授,多个大陆首位彰显其学术奢华。本篇主要介绍了该教材前两个章节的知识点以及自己一点浅陋的理解。 西瓜的例子中,我们是想计算机通过学习西瓜的特征数据,训练出一个决策模型,来判断一个新的西瓜是否是好瓜。可以得知我们预测的是:西瓜是好是坏,即好瓜与差瓜两种,是离散值。 显然:我们选取的测试集应尽可能与训练集互斥,下面用一个小故事来解释why: 假设老师出了10 道习题供同学们练习,考试时老师又用同样的这10道题作为试题,可能有的童鞋只会做这10 道题却能得高分,很明显 交叉验证法也称“k折交叉验证”,k最常用的取值是10,下图给出了10折交叉验证的示意图。 ? 与留出法类似,将数据集D划分为K个子集的过程具有随机性,因此K折交叉验证通常也要重复p次,称为p次k折交叉验证,常见的是1010折交叉验证,即进行了100次训练/测试。

    83210发布于 2019-11-04
  • 来自专栏用户画像

    西瓜-性能度量

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    92210发布于 2019-11-04
  • 来自专栏云时之间

    西瓜,读书笔记

    机器学习的发展阶段 1:推荐书目:周志华<机器学习西瓜>,李航教授<统计学习方法>,这两本书都用简单的方式介绍了一批重要并且常用的机器学习算法 机器学习所发展的几个重要的阶段: 1符号学习,在人工智能发展的早期 表示为第i个样例,其中Yi是属于Y的示例Xi的标记,则Y是所有标记的集合,也称为标记空间或者输出空间.如果我们想要预测离散值,比如说”好人””坏人”,这样的学习任务就可以称之为分类,想要预测的是连续值,比如西瓜成熟度

    1K90发布于 2018-04-11
  • 来自专栏大数据和机器学习

    密度聚类(参考西瓜

    密度聚类假设聚类结构通过样本分布的紧密程度。此算法是基于密度的角度来考察样本之间的连接性,并基于连接性不断扩展聚类簇最后获得最终的结果。他通过判断样本在区域空间内是否大于某个阈值来决定是否将其放到与之相近的样本中。

    1.2K20发布于 2019-08-29
  • 来自专栏datartisan

    经典“西瓜”的学习伴侣“南瓜”出版

    首先,确切地说,这是一本“伴侣” 类似于咖啡伴侣一样,这本书是周志华教授的“西瓜”——《机器学习》的伴侣,它也有一个可爱的名字 ——“南瓜”. 这是一本与众不同的。首先,这是一本“伴侣”。类似于咖啡伴侣一样,这本书是周志华教授的“西瓜”——《机器学习》的伴侣,它也有一个可爱的名字——“南瓜”。 案例2:在推导过程中给出新的解题思路,例如:向量化的应用 案例3:数学知识扩展,例如贝叶斯学派的扩展 4 对于本书有几点阅读建议 首先,这本“南瓜”要和“西瓜”配套阅读 南瓜的最佳使用方法是以西瓜为主线 ,如果在阅读“西瓜”时对公式疑惑或对概念理解不畅,可以通过“南瓜”快速定位公式并进行推导,从而深入理解. 本书(俗称“南瓜”)基于Datawhale 成员自学“西瓜”时记下的笔记编著而成,旨在对“西瓜”中重难点公式加以解析,以及对部分公式补充具体的推导细节。

    1.4K20编辑于 2022-08-22
  • 来自专栏Gvoidy备份小站

    西瓜笔记-模型评估与选择

    将数据拆分为训练数据和验证数据,可以减小过拟合的可能性。但这样就必须拆分出和训练集数据分布几乎一致的验证数据。

    82920发布于 2020-07-14
  • 来自专栏机器学习/数据可视化

    西瓜4-决策树

    西瓜和统计学习方法中学习了决策树的相关知识,同时在网上查找了树的知识点,最重要的是二叉树和树3种的遍历方式 树的知识 决策树 剪枝问题 ? 数据样本取自西瓜 ? 特点 在决策树生成的过程中,对每个节点划分前先进行预估 如果当前节点的划分不能提高泛化能力,停止划分 直接将当前节点划分叶子节点 通过西瓜的例子来讲解 采用留出法,将数据分成训练集和验证集(通过双横线区分 从中任意选择一个脐部当做根节点,会产生3个分支(因为脐部有3个不同的属性:凹陷,稍凹,平坦): 当使用脐部 属性划分之后,下面的234号节点中包含的编号分别为{1,2,3,14},{6,7,15,17},{10,16

    1.4K10发布于 2021-03-02
  • 来自专栏应兆康的专栏

    西瓜”——第一章_绪论

    此笔记是之前写的(未建站时) 点击图片查看清楚点:)

    759110发布于 2018-03-21
  • 来自专栏SAS-机器学习

    西瓜-第一章绪论

    小编选择以简单浏览为主,看不懂的无需太过在意,跳过即可,重要的知识点后面还会再提到的,看多了自然就明白咯~

    64200发布于 2020-06-21
  • 来自专栏云时之间

    《机器学习》西瓜读书笔记2

    *1010折交叉验证与100次留出法都是进行了100次的训练测试 留一法优缺点: 优点:留一法不受随机样本划分方式的影响,因为m个样本只有唯一的方式划分为m个子集,并且每个子集中包含一个样本;留一法的使用的训练集和初始的数据集只少了一个样本

    98460发布于 2018-04-11
  • 来自专栏H2Cloud

    朴素贝叶斯python代码实现(西瓜

    朴素贝叶斯python代码实现(西瓜) 摘要: 朴素贝叶斯也是机器学习中一种非常常见的分类方法,对于二分类问题,并且数据集特征为离散型属性的时候, 使用起来非常的方便。 对应的西瓜数据集为 色泽 根蒂 敲声 纹理 脐部 触感 好瓜 青绿 蜷缩 浊响 清晰 凹陷 硬滑 是 乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 是 乌黑 蜷缩 浊响 清晰 凹陷 硬滑 是 青绿 蜷缩 沉闷 1 是 是 2 是 是 3 是 是 4 是 是 5 是 是 6 否 是 7 是 是 8 否 否 9 否 否 10

    1.8K20发布于 2020-06-19
  • 来自专栏Python机器学习算法说书人

    《机器学习》西瓜,17个精炼笔记来了!

    点击上方“Python与算法社区”,选择“星标”公众号 相信大家都知道周志华的机器学习,俗称西瓜,被我们视为机器学习的入门和经典教材。

    1.3K30发布于 2019-08-26
  • 来自专栏机器学习与统计学

    《机器学习》周志华西瓜 笔记习题答案

    西瓜作为该领域的入门教材,在内容上尽可能涵盖机器学习基础知识的各方面。为了使尽可能多的读者通过本书对机器学习有所了解, 作者试图尽可能少地使用数学知识,是一本非看不可的!!! TeFuirnever/article/details/100847573 习题参考答案 https://blog.csdn.net/TeFuirnever/article/details/101280858 第10

    7.3K11发布于 2019-10-15
  • 来自专栏应兆康的专栏

    西瓜”——第二章_模型评估与选择

    习题 注: 其中: 真正例(TP)【好的西瓜,模型认为是好瓜】 假正例(FP)【坏的西瓜,模型认为是好瓜】 假反例(FN)【好的西瓜,模型认为是坏瓜】 真反例(TN)【坏的西瓜,模型认为是坏瓜】

    918110发布于 2018-03-21
  • 来自专栏计算机视觉

    西瓜第二章-模型评估和选择

    例如:小聊子(相当于学习器)想给自己的朋友分个类别,如果,我秉着每个人都是独一无二的这样的政治教课理论,好的,每一个人都是一个类,然而,这显然是不合理的,这就叫过拟合。

    721120发布于 2018-04-23
  • 来自专栏学习

    【机器学习篇】西瓜绪论解码:初识机器学习

    西瓜的例子中,我们是想计算机通过学习西瓜的特征数据,训练出一个决策模型,来判断一个新的西瓜是否是好瓜。可以得知我们预测的是:西瓜是好是坏,即好瓜与差瓜两种,是离散值。 但也有没有标记信息的情形,例如:我们想将一堆西瓜根据特征分成两个小堆,使得某一堆的西瓜尽可能相似,即都是好瓜或差瓜,对于这种问题,我们事先并不知道西瓜的好坏,样本没有标记信息。 显然:我们选取的测试集应尽可能与训练集互斥,下面用一个小故事来解释why: 假设老师出了10 道习题供同学们练习,考试时老师又用同样的这10道题作为试题,可能有的童鞋只会做这10 道题却能得高分,很明显 交叉验证法也称“k折交叉验证”,k最常用的取值是10,下图给出了10折交叉验证的示意图。 与留出法类似,将数据集D划分为K个子集的过程具有随机性,因此K折交叉验证通常也要重复p次,称为p次k折交叉验证,常见的是1010折交叉验证,即进行了100次训练/测试。

    36100编辑于 2025-01-20
  • 来自专栏应兆康的专栏

    西瓜”——第三章_线性模型(笔记)

    线性模型形式简单、易于建模,许多功能更为强大的非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得。

    1K150发布于 2018-03-21
  • 来自专栏每月技术成长

    Data Whale 吃瓜日记 西瓜第二章

    本章介绍了评估模型能力的方法、性能度量的关键参数、比较检验不同学习器能力的方法,以及偏差、方差、噪声的定义与实际意义。模型的泛化能力取决于学习算法的能力、数据量以及学习任务的难度,根据不同的性能度量参数,得出的结论是不一定相同的,需要根据实际需要来选择合适的性能度量参数,评估选择出最佳的模型

    54510编辑于 2023-12-12
  • 来自专栏每月技术成长

    Data Whale 吃瓜日记 西瓜第五章

    25800编辑于 2023-12-24
  • 来自专栏每月技术成长

    DataWhale 吃瓜日记 西瓜第一章

    写作目的记录学习西瓜的经过、总结、DataWhale 打卡基础概念数据集 (data set)若干个“样本”组成的数据集合(sample)样本关于一个事件或对象的描述属性(attribute)/ 特征 在具体现实问题中,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能学习总结西瓜第一章包含很多的概念,也有一些比较重要的结论,只有先捋清楚基础概念才能顺利理解“机器学习到底是什么 ”在学习过程中先看的南瓜 ,再看的西瓜,可以看出,西瓜的概念更多,有更加细致的介绍,而南瓜则偏向对西瓜的公式进行推导,可以先看南瓜再看西瓜,遇到不懂的名词后会更加有兴趣了解具体情况,但这样的话看起来比较难受 ,因为公式太多……还是应当先看西瓜再看南瓜实际上,书上的公式也没有那么难推导,自己思考+参考南瓜还是能够理解的,不要让畏难情绪压倒自己

    39510编辑于 2023-12-12
领券