首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏书山有路勤为径

    机器学习策略(2)

    所以现在有两个数据来源:1.你真正关心的数据分布,用户从应用中上传的图片2.另一个数据来源就是从网页直接下载。 相比于传统的流水线形式的算法,端到端的深度学习即是你训练一个巨大的神经网络, 输入就是一段音频,输出直接是听写文本 .其直接绕过了传统流水线机器学习系统的很多步骤。 例如当你只有3000h的语音数据时,原先的机器学习系统会表现得更好,但是当你有10000h的语音数据或者是1000000h的语音数据时,端到端方法就开始体现出优势了. ,但是有足够的数据来进行子任务1和子任务2.将其拆分为两个步骤更好。 NG认为机器学习系统有两个重要的知识获取来源,一个是数据另一个是人工设计的东西,可能是组件,功能或者其他的东西.

    43920发布于 2018-08-29
  • 来自专栏悦思悦读

    制定「机器学习学习计划【2

    个人意见:学习一个计划中的最小单位,如果是不脱产,仅在业余时间学习,掌握它的时间不应该超过一周;如果是全脱产学习,最好不要超过2天。 笔者决定在工作用应用机器学习模型,因此就要先从机器学习学起。 根据调研,确定了学习目标为机器学习。 【4】了解学科框架 接下来第一步就是了解“机器学习”的学科框架。 机器学习有一点特殊的地方——有一位大牛,Andrew Ng,在几年前就发布了一份免费网上课程叫做“机器学习”。因其经典和学术上的严谨,也可以用来作为了解机器学习体系的一个来源。 我们需要学习(复习)下列这些知识: 1)高数、线代和概率论的知识; 2)选择一批在实践中应用较多的典型模型,学习其原理、数学推导过程和训练模型的算法; 3)模型的训练、验证、测试过程和评判模型的指标 分词工具(jieba分词)和词库 d. word2vec F. 实践 如上只是第一个版本,可以先依据它制定一个为期两到三个月的学习计划。在执行过程中,根据新的认识和具体需要可随时调整提纲和计划。

    1.2K80发布于 2018-03-15
  • 来自专栏数据科学与人工智能

    【教程】机器学习Python教程:2机器学习术语

    笔者邀请您,先思考: 1 你熟悉和理解机器学习那些专业术语?举例说明 分类器 将未标记的实例映射到类的程序或函数称为分类器。 混淆矩阵 混淆矩阵,也称为关联表或错误矩阵,用于可视化分类器的性能。 Accuracy: (TN+TP)/(TN+TP+FN+FP) Precision: TP/(TP+FP) Recall: TP/(TP+FN) 监督式学习 机器学习程序同时给出输入数据和相应的标签。 这意味着学习数据必须事先由人类标记。 无监督学习 学习算法没有标签。算法必须计算出输入数据的簇。 强化学习 计算机程序与它的环境进行动态交互。这意味着程序接收到积极和/或消极的反馈,以改进性能。 数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习到有用知识。 平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。 您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。 我们努力坚持做原创,聚合和分享优质的省时的数据知识!

    60720发布于 2018-08-20
  • 来自专栏AI 算法笔记

    机器学习入门系列(2)--机器学习概览(下)

    机器学习的主要挑战1.1 训练数据量不足1.2 没有代表性的训练数据1.3 低质量的数据1.4 不相关的特征1.5 过拟合1.6 欠拟合2. 测试和评估3. 小结 1. 机器学习的主要挑战 在介绍基于模型学习算法的流程的时候,对于预测结果不好的问题分析,主要说了是数据问题还是模型问题,这同时也就是机器学习的效果不好的两个主要原因,即错误的数据和错误的算法。 1.3 低质量的数据 低质量的数据指的是数据有错误、带有过多噪声或者是出现异常值等的数据,这种数据会影响系统整体的性能,因此,数据清洗对于构建一个机器学习系统或者一个机器学习项目来说都是必不可少的步骤。 常用的正则化方法是 L2 和 L1 正则化。正则化方法通常会采用一个超参数来控制其限制模型的强度。超参数是一个学习算法的参数(而不是模型的)。 机器学习的四个主要挑战是 数据量太少 数据问题,包括没有代表性数据和质量差 不相关特征 模型过拟合或者欠拟合 2.

    60620发布于 2019-08-16
  • 来自专栏python机器学习教程

    Python机器学习教程—前传:机器学习介绍(2

    上文介绍了机器学习是什么。让我们来简单回顾一下,其实机器学习解决的问题是:机器学习模型根据已知数据的输入与输出进行学习,发现已知数据输入与输出的规律并总结下来,进而利用总结的规律对未知数据进行预测。 本文接着上文来继续介绍机器学习的基础知识,适合小白入门,大神请跳过。​ 一定要保证在机器学习建模前给其使用干净的数据,才能最大程度的保证机器学习模型的效果和准确度。 这主要还是与机器学习的算法息息相关。2.机器学习选择模型(算法)目前已存的机器学习算法很多,但我们要选择最合适的,最能够找到我们数据的输入和输出之间的规律的算法作为我们的模型。 ,我们其实需要做的便是竭尽所能寻找一个合适的机器学习模型。

    48220编辑于 2022-11-18
  • 来自专栏合集

    机器学习day2

    用户类型 物品类型 是 28 女 免费 护肤 否 36 男 付费 食品 那么对应样本的特征可以分别为(1,1,0,0)和(0,0,1,1) 文本表示模型 文本是一类非常重要的非结构化数据,那么怎么在机器学习中表示需要输入的文本 词嵌入与深度学习模型 词嵌入的核心思想就是,将每个词语映射到低维空间上的一个稠密向量。略 Word2Vec w2v是谷歌2013年提出了,目前最常用的词嵌入模型之一。 w2c实际上是一种浅层的神经网络模型,它有两种网络结构,分别是CBOW和Skip-gram。 CBOW和Skip-gram CBOW根据上下文出现的词语,预测当前词生成的概率。 其中,w(t)是我们当前关注的词,w(t-2),...,w(t+2)是上下的词语。这里设置前后滑动窗口大小为2。 输入时,每个单词由独热编码表示,每个词表示成一个N维向量。

    47610发布于 2020-06-01
  • 来自专栏AI风云之路

    机器学习(2)--感知机

    2.感知机的学习策略 假设训练数据集是线性可分的,感知机的目标是求得一个能够将训练数据集正实例点和负实例点完全正确分开的分离超平面。 损失函数推导过程: ①任一点到超平面S的距离: 分母 是w的L2范数,指的是向量各元素的平方和然后求平方根(长度)。 ②对于误分类点 来说,有 。 因为 时, 。 ⑤不考虑分母,就得到了感知机学习的损失函数: 。 损失函数是非负的,如果没有误分类点,损失函数为0,误分类点越少,损失函数值越小。 感知机的学习策略就是选取w和b,使损失函数最小。 3.感知机的学习算法 感知机学习问题转化为求解损失函数式的最优化问题,求参数w,b,使损失函数最小。 ,M为误分类点集合。 感知机的学习算法是误分类点驱动的,具体采用随机梯度下降法(stochastic gradient descent)。

    59500发布于 2021-02-22
  • 来自专栏机器学习算法与Python学习

    机器学习(2) -- logistic regression

    本篇内容对应机器学习课程的第二次视频~~~~~~~ 大纲: 2 Logistic Regression.   2.1 Classification.   2.2 Hypothesis representation 多分类学习的基本思路是“拆解法”,即将多分类任务拆为若干个二分类任务求解。 例如对于图2-10所示的多分类问题,我们先将三角形,正方形,叉分别标记为类别1,2,3,然后做如下划分: 先将三角形看作正例“1”,正方形和叉看作反例“0”,训练出hθ1(x) 再将正方形看作正例“1” 若预测值为[0.12, 0.83, 0.56], 对应的就是上文所说的情况2,hθ2(x) 和hθ3(x)都大于0.5,都预测为正例,但hθ2(x)> hθ3(x),所以应该预测是属于2标记类,即为正方形 图2-10

    86460发布于 2018-04-04
  • 来自专栏Jack96

    机器学习_knn算法_2

    datasets.load_iris()得到的不是字典是普通的hash类型,因为pandas,matplotlib,sklearn,numpy都是由c封装的,所有的库不是python写的都是由c封装的 是一个元类 In [2] ,y_test = train_test_split(data,target,test_size=0.1) 进行训练(只是为了训练出一组数学模型) k : n_neighbors=5 n_jobs=2 from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier(n_neighbors=5,n_jobs=2) n_neighbors=5, p=2, weights='uniform') 进行评估(传入的值任然是训练时的值但是评估结果不是1,则这种评估的结果就是准确率) In [28]: ':list(range(1,26))} In [86]: gc = GridSearchCV(estimator = knn,param_grid = param_grid,cv=3,n_jobs=2)

    62340编辑于 2023-03-07
  • 来自专栏趣Python

    机器学习2)细说监督学习

    机器学习系列: 机器学习(1) - 人工智能起源 ---- 前面说到了监督学习是有老师教的,所以不管是啥类型的算法,只要它是监督学习,要有老师教才行。 我们把套路理一下,监督学习分三步: 1. 知识积累,就是学校里老师各种上课,各种模拟试卷,专业术语就是要准备一堆数据作为输入。 2. at last,重要的事情说3遍,无论是简单的线性模型,还是看起来复杂的神经网络模型,只是f(x)而已,理解了这一点,后面的学习就容易多了。

    49110发布于 2020-05-26
  • 来自专栏小道

    机器学习学习笔记(2) -- 推荐算法

    1、推荐系统涉及的知识   电子商务业务知识、网站架构运营、机器学习算法、数学建模、大数据平台… 2、推荐系统涉及的常见算法   聚类、关联模式挖掘、大规模矩阵运算、文本挖掘、复杂网络和图论计算等… 3 实现基于邻域的算法思路举例: 推荐数据准备:用户id、物品id、偏好值 --- 把数据看成空间中的向量 (1)建立物品的同现矩阵 (2)建立用户对物品的评分矩阵 (3)矩阵计算推荐结果 ---

    93030发布于 2021-04-13
  • 来自专栏Michael阿明学习之路

    03.结构化机器学习项目 W2.机器学习策略(2)

    进行误差分析 2. 清除标注错误的数据 3. 快速搭建你的第一个系统,并进行迭代 4. 使用来自不同分布的数据,进行训练和测试 5. 数据分布不匹配时,偏差与方差的分析 6. 2. 清除标注错误的数据 ? 你发现训练数据里有标签标错了。怎么办? 深度学习算法对于训练集中的随机错误是相当健壮的(robust),所以可以不用管 你有时间,修正下也没问题 ? 太多了) 只修正 开发集 / 测试集 的标签,而不修正 训练集 的标签是合理的,训练集 通常比前2者大得多,算法是相当健壮的 老师建议: 需要人工分析错误 亲自去查看错误样本,统计数量,找到优先处理的任务 快速搭建你的第一个系统,并进行迭代 几乎所有的机器学习程序可能会有50个不同的方向可以前进,并且每个方向都是相对合理的,可以改善你的系统? 端到端深度学习系统是可行的,它表现可以很好(例如,机器翻译),也可以简化系统架构,让你不需要搭建那么多手工设计的单独组件,但它并不是每次都能成功(从X射线照片判断年龄) 10.

    49420发布于 2021-02-19
  • 来自专栏风口上的猪的文章

    机器学习2) - KNN识别MNIST

    大家可以试着将算法进行改进,例如取K=2或者其他数,或者计算L2距离等。L2距离的结果比L1好一些,可以达到93-94%的正确率。

    73520发布于 2018-09-14
  • 来自专栏null的专栏

    图解机器学习总结——2、回归

    一、回归的定义 二、最小二乘学习法 三、最小二乘法实例 对于如下的数据集: 画图的代码如下: #coding:UTF-8 ''' Date:20160423 @author: zhaozhiyong ' .split("\t") if len(lines) == 3: x.append(float(lines[1])) y.append(float(lines[2] x, y = load_data() #核心的最小二乘 w = lr(x,y) print w 最终的图形如下: 四、局部加权线性回归 五、最小二乘的性质 六、大规模数据的学习算法 x_tmp.append(float(lines[0])) x_tmp.append(float(lines[1])) y = float(lines[2] w - p * (w * x - y) * x.T f.close() return w if __name__ == "__main__": w = sgd(2,

    72570发布于 2018-03-20
  • 来自专栏机器学习/数据可视化

    机器学习实战-2-KNN

    机器学习实战-2-K近邻算法 本文中介绍的机器学习中最基础的一个算法:k-近邻算法,将从如下方面展开: ? 机器学习中向量距离度量准则 下面? 列举了机器学习中常用的向量距离度量准则: 欧式距离 曼哈顿距离 切比雪夫距离 马氏距离 巴氏距离 汉明距离 皮尔逊系数 信息熵 图解过程 通过下面的一组图形来解释KNN算法的思想。 x_1)^2 + (y_2-y_1)^2) ** 0.5 """ def classify(inX,dataSet,labels,k): # shape函数返回行数和列数 datasetsize 参考资料 1、《机器学习实战》一书 2机器学习实战教程(一):K-近邻算法(史诗级干货长文) 3、《统计学习方法》-李航老师

    72310发布于 2021-03-03
  • 来自专栏硅光技术分享

    机器学习笔记2:线性回归

    线性回归,是指数据集的输出值y与特征值(x1, x2...)之间满足线性关系, 数学表达式为, ? 上式中的x_0值为1。 举一个单变量线性回归的例子,下图为不同城市人口与相应酒店盈利的数据,蓝线对应最终学习到的模型,经营者可根据此模型来决策是否在新的城市开设酒店。 ? 2)正规方程(normal equation)法 z ? 上式是通过求解 ? 得到。可能存在的一个问题: X^T*X矩阵不可逆,可使用伪逆函数pinv()进行求解。 梯度下降法需要选择学习率alpha, 正规方程法不需要 b. 梯度下降法需要多次迭代,正规方程法只需要一步计算 c. 梯度下降法也适用去其他机器学习模型,而正规方程法只适用于线性回归模型 处理数据时,有时候会遇到某一个特征值较大的情况,如果直接处理该数据,会存在一定的问题。

    70520发布于 2020-08-13
  • 来自专栏SuperFeng

    机器学习系列 2:代价函数

    现在我有一些数据集,就像上图中的叉。那么我想通过一次函数也叫线性回归函数(一条直线)去拟合这些数据,一次函数在没有确定之前,应该是这个样子的:

    60710发布于 2019-09-26
  • 来自专栏机器学习/数据可视化

    机器学习实战-2-KNN

    机器学习实战-2-K近邻算法 本文中介绍的机器学习中最基础的一个算法:k-近邻算法,将从如下方面展开: ? 机器学习中向量距离度量准则 下面? 列举了机器学习中常用的向量距离度量准则: 欧式距离 曼哈顿距离 切比雪夫距离 马氏距离 巴氏距离 汉明距离 皮尔逊系数 信息熵 图解过程 通过下面的一组图形来解释KNN算法的思想。 x_1)^2 + (y_2-y_1)^2) ** 0.5 """ def classify(inX,dataSet,labels,k): # shape函数返回行数和列数 datasetsize 参考资料 1、《机器学习实战》一书 2机器学习实战教程(一):K-近邻算法(史诗级干货长文) 3、《统计学习方法》-李航老师

    79520发布于 2021-03-01
  • 来自专栏机器学习之禅

    机器学习之特征筛选(2

    继上篇的介绍了特征筛选中的TF-IDF与信息增益后,本篇继续介绍卡方检验和互信息。

    42620编辑于 2022-07-11
  • 来自专栏云时之间

    机器学习常用算法分类(2)

    抛砖引玉,我希望在阅读完本文以后,你可以结合一些资料,对监督学习中的最受欢迎的机器学习算法,以及他们的彼此之间的关系有一个比较深刻的了解。 常用的算法是对所有的无标签的数据建模进行的预测算法(可以看做无监督学习的延伸) 2:从功能角度分类 1:回归算法:回归分析是研究自变量和因变量之间关系的一种预测模型技术。 回归分析也是一种常用的统计方法,经由统计机器学习融入机器学习领域。“回归”其实既可以指算法也可以指问题,因此在指代的时候容易混淆。实际上,回归我觉得就是一个过程而已。 常用的回归算法包括: 普通最小二乘回归(OLSR),线性回归,逻辑回归,逐步回归,多元自适应回归样条法(MARS),局部估计平滑散点图(LOESS) 2:基于实例的学习算法:基于实例的学习通过训练数据样本或者实例建模 因此来说这也是属于最受欢迎的机器学习算法之一。

    1K80发布于 2018-04-11
领券