首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏MiningAlgorithms

    机器学习9:采样

    另外,利用重采样技术,可以在保持特定的信息下(目标信息不丢失),有意识地改变样本的分布,以更适应后续的模型训练和学习,例如利用重采样来处理分类模型的训练样本不均衡问题。 对于很多分类算法,如果直接采用不均衡的样本集来进行训练学习,会存在一些问题。 同样地,对于欠采样,可以采用InformedUndersampling来解决由于随机欠采样带来的数据丢失问题 7.2,基于算法的方法: 在样本不均衡时,也可以通过改变模型训练时的目标函数(如代价敏感学习中不同类别有不同的权重 )来矫正这种不平衡性;当样本数目极其不均衡时,也可以将问题转化为单类学习(one-classlearning)、异常检测(anomaly detection)。 if __name__ == '__main__': plot_mcmc(0.1, 0.1) plot_mcmc(1, 1) plot_mcmc(2, 3) Reference: 《百面机器学习

    2.3K30发布于 2019-08-08
  • 来自专栏SuperFeng

    机器学习系列9:正则化

    在线性回归问题中,像下面这个数据集,通过房屋面积去预测房价,我们用一次函数去拟合数据:

    64120发布于 2019-09-26
  • 来自专栏机器学习算法工程师

    机器学习》笔记-聚类(9

    作者: 刘才权 编辑: 黄俊嘉 前 言 如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。 对于自己,经历了一段时间的系统学习(参考《机器学习/深度学习入门资料汇总》(https://zhuanlan.zhihu.com/p/30980999)),现在计划重新阅读《机器学习》[周志华]和《深度学习 这两本是机器学习和深度学习的入门经典。 记录笔记,一方面,是对自己先前学习过程的总结和补充。 另一方面,相信这个系列学习过程的记录,也能为像我一样入门机器学习和深度学习同学作为学习参考。 ,学习过程用样本的这些监督信息来辅助聚类。

    58950发布于 2018-06-07
  • 来自专栏趣Python

    机器学习9)决策树

    决策树仍然是监督学习方法,其基本思路跟我们人做一些决策的思路类似:可能要下雨,那就带伞;可能要停水,那就提前备水…… 这个决策的数学模型是熵。

    46720发布于 2020-06-05
  • 来自专栏机器学习原理

    机器学习9)——SVM数学基础

    参考: 如果公式推导还是不懂,也可以参考《统计学习方法》李航-P103<学习的对偶算法> 点到超平面距离公式: 加入为二维空间可以转化为点到直线的距离,用以前学过的点到直线距离可以表示如下面所示: ? 感知器模型 感知器算法是最古老的分类算法之一,原理比较简单,不过模型的分类泛化能力比较弱,不过感知器模型是SⅥM、神经网络、深度学习等算法的基础。

    1.1K60发布于 2018-04-27
  • 来自专栏WD学习记录

    机器学习 学习笔记(9)支持向量机

    线性可分支持向量机与硬间隔最大化 给定训练样本集,分类学习最基本的想法就是基于训练集D在样本空间中找到划分超平面,将不同类别的样本分开,希望找到的是位于两类样本正中间的划分超平面,因为该划分对训练样本的局部扰动的容忍性最好 SMO详细步骤见 机器学习 学习笔记(10)序列最小最优化算法​​​​​​​ 定理核函数:令 ? 为输入空间, ? 是定义在 ? 上的对称函数,则 ? 是核函数当且仅当对于任意数据 ? 通过引入核化(即引入核函数)来将现行学习期拓展为非线性学习器。 SVM smo代码如下: # 代码和数据集主要源自于机器学习实战,https://github.com/AnnDWang/MachineLearning/blob/master/thirdbook/ch6 # 如果支持向量太少,就可能会得到一个很差的决策边界 # 如果支持向量太多,也就相当于每次都利用整个数据集进行分类 参考: 《机器学习》 《统计学习方法》 《机器学习实战》

    89120发布于 2018-09-03
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 8-9 lasso

    本系列是《玩转机器学习教程》一个整理的视频笔记。 对于这些超参数都是根据经验进行取值的,如果具体进行机器学习算法的过程中需要通过不断的实验不断的观察结果慢慢地形成经验指导,这样在调参的时候可以大概指导参数在那个范围内选择会相应的比较好。 当然在实际选择机器学习算法参数的时候,需要在完全不正则化(α取值为0)与正则化过头(就此例而言α取值为1,拟合曲线变成一条平行的直线)之间选择一个效果最好的取值。

    1.3K20发布于 2020-01-14
  • 来自专栏机器人网

    常见的机器学习9个误区

    误区1:机器学习就是人工智能 机器学习和人工智能经常当作是同义词,机器学习是从研究实验室走出现实世界最成功的一项技术,而人工智能则是一个广泛的领域,覆盖了计算机视觉、机器人和自然语言处理等领域,以及不包含机器学习的约束满足等方法 误区2:所有数据都是有用的 要做机器学习的话就需要数据,但并非所有数据都可用于机器学习。为了训练系统,你需要有代表性的数据,以涵盖机器学习系统需要处理的模式和结果。 转移学习让你使用相对较少的数据就可以为你的问题定制预先训练好的系统。 误区4:任何人都可以建立一个机器学习系统 有很多用于机器学习的开源工具和框架,以及无数课程向教你如何使用机器学习。 一个机器学习系统也可能给另一个机器学习系统施加偏见。 误区9机器学习将取代人类 人们常常担心人工智能会抢了人类的工作,而且肯定会改变我们的工作方式;机器学习系统可以提高效率和合规性并降低成本。

    45830发布于 2018-07-23
  • 来自专栏AILearning

    机器学习实战】第9章 树回归

    9章 树回归 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js? 决策树相比于其他<em>机器</em><em>学习</em>算法的优势之一在于结果更易理解。很显然,两条直线比很多节点组成一棵大树更容易解释。模型树的可解释性是它优于回归树的特点之一。另外,模型树也具有更高的预测准确度。 其中一个能同时支持数据呈现和用户交互的方式就是构建一个图形用户界面(GUI,Graphical User Interface),如图<em>9</em>-7所示。 所以,Matplotlib 和 Tkinter 的集成可以构建出更强大的 GUI ,用户可以以更自然的方式来探索<em>机器</em><em>学习</em>算法的奥妙。 作者:片刻 小瑶 GitHub地址: https://github.com/apachecn/MachineLearning 版权声明:欢迎转载<em>学习</em> => 请标注信息来源于 ApacheCN

    1.5K51发布于 2018-01-05
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 9-5 决策边界

    全文字数:4239字 阅读时间:15分钟 前言 本系列是《玩转机器学习教程》一个整理的视频笔记。 通过前几个小节的学习可以了解,逻辑回归实质上是在线性回归的基础上进行改进的,逻辑回归将线性回归的输出经过Sigmoid函数转换为(0, 1)之间的概率值,通过与阈值0.5进行判断决定样本属于哪一个类别。 逻辑回归算法的决策边界是一根很简单的直线,但是对于之前学习到的kNN算法以及后面将会介绍的加入多项式的逻辑回归算法,这些算法的决策边界不再是一根简单的直线。

    3K20发布于 2020-02-26
  • 来自专栏合集

    机器学习day9-决策树

    决策树是最基础且常见的监督学习模型,可以用于处理分类问题和回归问题。 决策树的生成包括:特征选择,树的构造,树的剪枝三个过程。

    52920发布于 2020-06-11
  • 来自专栏JetpropelledSnake

    机器学习笔记之机器学习中常见的9种距离度量方法

    在本文中,数据科学家 Maarten Grootendorst 向我们介绍了 9 种距离度量方法,其中包括欧氏距离、余弦相似度等。 ? 许多算法,无论是监督学习还是无监督学习,都会使用距离度量。 了解距离度量这个领域可能比你想的更重要,以 k-NN 为例,它常被用于监督学习中。 但是,如果你的数据是高维的,欧几里德距离还能用吗? 数据科学家 Maarten Grootendorst 向读者介绍了 9 种距离度量方法,并探讨如何以及何时以最佳的方式使用它们。 当你有一个深度学习模型来预测图像分割时,比如一辆汽车,雅卡尔指数可以用来计算给定真实标签的预测分割的准确度。 类似地,它可以用于文本相似性分析,以测量文档之间有多少词语重叠。

    2.3K10发布于 2021-03-03
  • 来自专栏xingoo, 一个梦想做发明家的程序员

    吴恩达机器学习笔记 —— 9 神经网络学习

    在传统的线性回归或者逻辑回归中,如果特征很多,想要手动组合很多有效的特征是不现实的;而且处理这么大的特征数据量,计算上也很复杂。

    37200发布于 2018-07-31
  • 来自专栏算法channel

    机器学习储备(9):matplotlib绘图原理及实例

    matplotlib绘图的基本元素都包括都哪些?常用的绘图API如何应用。本文做个入门介绍吧。 1 基本元素 通过一个大部分都是用默认值的例子,初步认识下matplotlib中图形的基本元素,如下图所

    1.4K80发布于 2018-04-02
  • 来自专栏NowlNowl_AI

    机器学习9天:决策树分类

    假如有小明,小红和小张三个人,我们知道他们的身高体重,要通过身高体重来判断是哪个人,决策树算法会构建一个二叉树,逐级判断,如下

    27510编辑于 2024-01-18
  • 来自专栏算法进阶

    机器学习研究需要掌握的9个工具

    Mikhailiuk 将这些工具按用途分为四类:可隔离环境、实验跟踪、相互协作以及可视化 一、可隔离环境工具 机器学习是一个快速发展的领域,常用的包更新非常频繁。 假如你是研究机器学习模型的,或多或少都能遇到这种情况——你创建了许多不同的模型来试验不同的参数甚至整个架构。你还想尝试优化器的选择、学习率、时期数等。 MLFlow MLFlow 是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的新平台,它是一款管理机器学习工作流程的工具,主要有三个功能模块:Tracking 跟踪和记录、Project 扩展阅读:机器学习可视化技术概览(Python) 如果审稿人没有太多时间,或者对论文涉及的领域不熟悉,通常来说论文会被拒掉,其中一部分原因可能是论文中的视图给人印象不深刻。 Inkscape 推荐教程: https://inkscape.org/learn/tutorials/ 9.

    47220编辑于 2023-10-07
  • 来自专栏CDA数据分析师

    9机器学习开源项目Top10

    作者 | Mybridge 译者 | 王天宇 整理 | Jane 出品 | AI科技大本营 本文转自 AI 科技大本营,转载需授权 【导读】我们从过去一个月近 250 个有关机器学习的开源项目中 ▌No.2 TransmogrifAI:用于建立机器学习工作流的 AutoML 库 TransmogrifAI 是用 Scala 编写的 AutoML 库,运行在 Spark 上。 该框架的开发初衷在于通过机器学习自动化技术,以及提升编译速度与可重复利用性的 API,来提高机器学习开发者的开发效率。 你可以在以下几种场景使用该框架: 在几小时内建立可投入使用的机器学习应用,无需几个月的时间 轻松创建机器学习模型,即使你不是机器学习专业的 Ph.D 建立模块化的、可重复利用的机器学习工作流 ? utm_source=mybridge&utm_medium=blog&utm_campaign=read_more ▌No.8 AIF360:用于检测并去除机器学习模型偏差的开源库 这个 AI Fairness

    59940发布于 2018-10-25
  • 来自专栏数据科学(冷冻工厂)

    297个机器学习彩图知识点(9

    梯度消失 9. 方差膨胀因子 10. 方差 11. 方差阈值法 12. RSS 13. 值缩放 14. 随机缺失 15. 完全随机迷失 16. 不完全随机缺失 17.

    20710编辑于 2023-02-27
  • 来自专栏浊酒清味

    Python快速实战机器学习(9) K近邻

    引言 KNN(K近邻)算法是懒惰学习的一个典型示例。 之所以称为“懒惰”并不是由于此类算法看起来很简单,而是在训练模型过程中这类算法并不去学习一个判别式函数(损失函数)而是要记住整个训练 通过这一课,您将会: 1、认识到参数模型和变参模型的区别; 2、理解 参数模型VS变参模型 机器学习算法可以被分为两大类:参数模型和变参模型。对于参数模型,在训练过程中我们要学习一个函数,重点是估计函数的参数,然后对于新数据集,我们直接用学习到的函数对齐分类。 KNN属于变参模型的一个子类:基于实例的学习(instance-based learning)。 基于实例的学习的模型在训练过程中要做的是记住整个训练集,而懒惰学习是基于实例的学习的特例,在整个学习过程中不涉及损失函数的概念。

    56310发布于 2019-12-25
  • 来自专栏小鹏的专栏

    机器学习-9:MachineLN之数据归一化

    机器学习-2:MachineLN之模型评估 3. 机器学习-3:MachineLN之dl 4. 机器学习-4:DeepLN之CNN解析 5.  机器学习-5:DeepLN之CNN权重更新(笔记) 6. 机器学习-6:DeepLN之CNN源码 7. 机器学习-7:MachineLN之激活函数 8.  机器学习-8:DeepLN之BN 9机器学习-9:MachineLN之数据归一化 10. 机器学习-10:MachineLN之样本不均衡 11.  机器学习-11:MachineLN之过拟合 12. 机器学习-12:MachineLN之优化算法 13. 机器学习-13:MachineLN之kNN 14.  机器学习-14:MachineLN之kNN源码 15. 机器学习-15:MachineLN之感知机 16. 机器学习-16:MachineLN之感知机源码 17. 

    39520编辑于 2022-05-09
领券