首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器学习/数据可视化

    统计学习方法导论—2

    过拟合是指学习时选择的参数过多 过拟合对已知数据能够很好的判断,但是对未知数据预测的效果很差 模型选择的目的在于避免过拟合并且提高模型的预测能力 栗子:对M次多项式进行拟合 f_M(x,w)=w_0+w_1x+w_2x2 =0}Mw_jxj 解决办法: 确定模型的复杂度,即多项式的次数 在给定的模型复杂度下,根据经验风险最小的策略,求解参数,即多项式的系数 经验风险最小化 L(w)=\frac{1}{2} \sum_{i=1}{N}(f(x_i,w)-y_i)2 损失函数是平方损失,系数\frac{1}{2}是为了后续的求导计算。 \lambda ||w||1 者表示成参数向量的范数 L(w)=\frac{1}{N}\sum{i=1}N(f(x_i;w)-y_i)2+{\frac{\lambda}{2}||w||^2} 正则化作用 y_2),…(x_i,y_i),…,(x_N,y_N)} N是样本容量,T是从联合概率分布 假设空间是函数的集合\Gamma = {f_1, f_2, …, f_d},d是函数的个数。

    51730发布于 2021-03-02
  • 来自专栏人人都是数据分析师

    统计学(2)|AB测试—理论基础

    ZZ之前承诺以A/B测试为案例,串联起统计学的理论,让理论直接落地于实践,搭建起统计学理论与工作实践的桥梁。所以,为了实现吹过的牛逼,这篇”A/B测试—理论基础“应运而生。 2 A/B测试的本质 上一篇统计学必知必会中,ZZ详细的剖析了统计学中关于假设检验部分的发展历程,从计数到均值方差;从总体到样本;从频率到概率;从指标到分布;最后由于现实世界的限制,研究从样本推断总体, 进而引出统计量,抽样分布,最后引出假设检验,下面是详细链接,没有看过同学建议移步先行阅读一下: 统计学(1)|白话统计学发展(含统计学必知必会) 那么本质上来说,A/B测试就是假设检验理论的一个实际应用而已 统计学有一个经典的思想是小概率事件几乎不可能发生,那么如果我们找到了一个小概率事件发生了,我们就找到了解题的钥匙。 当总体是正态分布的情况下,我们可以推导出关于样本方差 S^{2}的分布形式为(具体推导过程感兴趣的同学在评论区留言,我会把推导过程回复): 其中, 为自由度为 的卡方分布,需要注意的是,样本方差的此分布形式有前提

    1.4K20发布于 2021-05-13
  • 来自专栏机器学习、深度学习

    统计学习导论 Chapter2--What Is Statistical Learning?

    Learning with Applications in R http://www-bcf.usc.edu/~gareth/ISL/ 这是第二章,简要介绍统计学习中的一些基本概念 假定我们观察到一个定量响应变量 Y 和 p个不同的 predictors, X_1, X_2 ,…, X_p, X 和Y 存在一定的关系,这里我们用一个公式表示,其中 f 是 关于 X_1, X_2 , In essence, statistical learning refers to a set of approaches for estimating f 本质上来说,统计学习就是关于估计 f 我们这里称之为 reducible error and the irreducible error,通常 f^ 不是 f 的一个完美估计,f^ 引入的误差是 reducible ,因为我们可以通过使用更合适的统计学习算法来对 2) 模型定下来之后,我们需要一个 procedure 来将训练数据对模型进行拟合或训练。对于线性模型,我们可以使用 (ordinary) least squares 来估计参数。

    1.1K80发布于 2018-01-03
  • 来自专栏iOSDevLog

    统计学习方法》第 2 章 感知机

    Statistical Learning Method 统计学习方法 https://pypi.org/project/slmethod/ import numpy as np import matplotlib.pyplot sklearn.datasets import make_classification %matplotlib inline 生成数据 # X 为样本特征,y 为样本类别输出,共 30 个样本,每个样本 2 n_features=2, n_informative=2, n_redundant=0, n_classes=2, n_clusters_per_class=1, random_state ', label='sklearn', linewidth=0.3) [<matplotlib.lines.Line2D at 0x12bdbe320>] ?

    48160发布于 2019-06-11
  • 来自专栏闪电gogogo的专栏

    统计学习方法》笔记六(2) 最大熵模型

    本系列笔记内容参考来源为李航《统计学习方法》 知识概要 ? 最大熵原理认为学习概率模型时,熵最大的模型是最好的模型。 设离散随机变量X的概率分布是P(X),则其熵是  ? ?

    77330发布于 2018-12-07
  • 来自专栏人人都是数据分析师

    统计学(1)|白话统计学发展(含统计学必知必会)

    本文是个人思考后输出的合乎逻辑的统计学发展历程,旨在为广大对统计学感兴趣的同学提供一个顺滑的学习路线和一个整体的逻辑框架。 ? 2何为统计? 首先,对于统计的这个话题,需要明确我们在讨论什么? 2)有了均值来衡量平均水平,那么人们自然会关注个体与平均水平的差异,这是人性使然。 13)统计学发展至此,已经覆盖大部分日常生活中的应用,ZZ叙述的这个发展过程,希望指引广大爱好的统计学的同僚更加顺滑的学习统计学知识。 4统计学必知必会 如果大家认可以上的统计学发展过程,这其中的必知必会就呼之欲出: 均值、方差、最大值、最小值、中位数等统计值的概念; 事件、总体、样本、个体的概念; 频率、概率、分布等概念,了解常用分布 5小结 以上统计学发展和必知必会覆盖大部分日常统计工作,也涉及了应用最广范的假设检验,但是本文旨在为学习统计学的同学提供一个指引,对于其中具体理论和实际应用并未多涉及。

    84020发布于 2021-05-13
  • 来自专栏SnailTyan

    统计学习方法(一)——统计学习方法概论

    统计学习方法概论 本文是统计学习方法(李航)第一章的学习总结。 统计学习的特点:(1)以计算机和网络为平台;(2)以数据为研究对象,是数据驱动的学科;(3)目的是对数据进行分析和预测;(4)以方法为中心,构建模型并应用模型进行分析和预测;(5)是概率论、统计学、信息论 2.统计学习的对象 统计学习的对象是数据(data)。它从数据出发,提取数据特征,抽象出数据模型,根据模型对数据进行分析和预测。统计学习的前提是假设同类数据(具有某种共同性质)具有一定的统计规律性。 5.统计学习的研究 统计学习的研究包括统计学习方法(算法创新)、统计学习理论(算法效率及有效性)及统计学习应用(解决问题)三个方面。 6.统计学习的重要性 统计学习的重要性体现在三个方面:(1)统计学习是处理海量数据的有效方法。(2统计学习是计算机智能化的有效手段。(3)统计学习是计算机发展的重要组成部分。

    1.1K20发布于 2019-05-25
  • 来自专栏iOSDevLog

    统计学习方法》第 2 章 感知机 可视化

    选取初值 在训练集中选取数据 如果 转至 2,直至训练集中没有误分类点。 感知机学习算法的对偶形式 在训练集中选取数据 如果 转至 2 直到没有误分类数据。 数据 def show2d(self, name=None): if (self.X.shape[1] ! = 2): raise ValueError("X must have 2d array.") Perceptron(dual=False) origin_clf.fit(X, y) print(origin_clf.w) print(origin_clf.b) origin_clf.show2d

    57910发布于 2019-06-11
  • 来自专栏AI金融科技

    统计学方法

    对x1 < x <x2 x' = 1 - (x2 - x)/(x2 - x1) 2. getCondEntropy(s1, s2) ## 计算增益率 def getEntropyGainRadio(s1, s2): return getEntropyGain(s1, s2) / getEntropy(s2) ## 衡量离散值的相关性 import math def getDiscreteCorr(s1, s2): return getEntropyGain(s1,s2) , 'X2' , 'X2' , 'X2']) s2 = pd.Series(['Y1' , 'Y1' , 'Y1' , 'Y2' , 'Y2' , 'Y2']) print('CondEntropy getGini(s1, s2)) ```

    1.1K10发布于 2021-03-05
  • 来自专栏数据派THU

    谷歌统计学家表示“统计学很无聊“

    来源:数学加油吧 机器学习算法与Python实战  本文约3500字,建议阅读7分钟 本文为你分享谷歌的统计学家 Cassie Kozyrkov 对于统计学的观点。 统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。 嗯,以上是统计学课本中对统计学的定义! 但是近日,一位来自谷歌的统计学家却发长文表示“统计学很无聊。“ 这位统计学家叫 Cassie Kozyrkov,目前是 Google 的首席决策师。 让我们先普及一些统计学的入门级概念,然后跟着这位统计学家一起,看看她的逻辑证明。 总体  当一个普通人想到“population”这个词时,他会想到什么?人,对吗? 我花了十多年的时间致力于统计学,它并不是一门一无是处的学科。 所以,在合适的时候使用统计方法才是有用的,非常有用的。 最后,你什么时候真的需要统计学呢?

    45820编辑于 2023-03-29
  • 来自专栏Hank’s Blog

    统计学(一)

    分位数 使用QUARTILE函数算出 第一分位数:25%分位数 第二分位数:中位数 第三分位数:75%分位数

    39920发布于 2020-09-16
  • 来自专栏机器学习与统计学

    基础统计学

    Ai学习的老章 长期跟踪关注统计学、机器学习算法、深度学习、人工智能、大模型技术与行业发展动态,日更精选技术文章。回复机器学习有惊喜资料。 用帕累托图展示空难原因 图2-8展示了基于表2-3的帕累托图。图 2-8 和表 2-3 使用了相同的数据,但图 2-8 能让读者更加鲜明地看到,飞行员失误是空难的最重要原因。 另外,图 2-8 并没有严格遵循长条高度从左到右依次递减的要求,而是将“其他原因”的组放置在图的最右边起到可视化的效果。 概率在统计学中的角色 概率在假设检验中起到了关键作用。 统计学家根据数据做决策:根据低概率排除偶然发生的可能性。请看以下关于概率的作用和统计学家思维方式的例子。 概率论基础 事件是一个过程的结果或结果的任意集合。简单事件是不能进一步拆分的结果或事件。 希望每一位学习统计学的小伙伴来都拥有这本案头宝典。

    37110编辑于 2025-06-15
  • 来自专栏今年是雕刻时光

    统计学分析

    一.t检验1.单样本t检验> daily.intake<-c(1,2,3,4,5)> t.test(daily.intake,mu=10)#mu为已知总体均数One Sample t-testdata: to 1095 percent confidence interval:#样本均数的置信区间 1.036757 4.963243sample estimates:mean of x 3 2. 1074.072 1566.838sample estimates:mean difference 1320.455二.非参数秩和检验1.单样本秩和检验> daily.intake<-c(1,2,3,4,5

    36710编辑于 2023-12-19
  • 来自专栏hotarugaliの技术分享

    统计学习概述

    【注】学习笔记参考自《统计学习方法第二版》——李航。 1. 定义 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,统计学习也称为统计机器学习。 按照这一观点,统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。 2. 特点 统计学习以计算机及网络为平台,是建立在计算机及网络上的。 统计学习以数据为研究对象,是数据驱动的学科。 统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。 统计学习的目的是对数据进行预测与分析的。 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析。 研究 统计学习研究一般包括统计学习方法、统计学习理论及统计学习应用三个方面。 统计学习方法的研究旨在开发新的学习方法。 统计学习理论的研究旨在探索统计学习方法的有效性和效率。

    52120编辑于 2022-03-18
  • 来自专栏C/C++的自学之路

    统计学汇总

    2.  分布左边相当于样本的方差乘以自由度比上上总体的方差,右边相当于一个和自由度有关的曲线。 论证方法分类 抽样方法分类  1. 抽样方法的优点:费用较低,速度较快,应用范围广。 2. 均值: 2. 方差: 3. 比率: 4. 总体参数都是常量。 样本参数  1. 均值: 2. 方差: 3. 比率: 4. 样本参数都是变量。 统计量  1. 2. 统计量表述时,需要看清是总体参数还是样本参数。 置信区间  1. :置信度又称为置信水平,也成为显著性水平。 2.

    22710编辑于 2025-04-02
  • 来自专栏闪电gogogo的专栏

    统计学习方法》笔记一 统计学习方法概论

    统计学统计学习时关于计算机基于数据构建概率统计模型 并运用模型 对数据进行预测与分析。 统计学习的三要素: 方法 = 模型+策略+算法 统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。 实现统计学习方法的具体步骤如下: (1)得到一个有限的训练数据集合; (2)确定包含所有可能的模型的假设空间,即学习模型的集合; (3)确定模型选择的准则,即学习的策略; (4)实现求解最优模型的算法, 标注问题: 输入、输出变量均为变量序列的预测问题 监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出,这个模型的一般形式为决策函数:Y=f(X)或者条件概率分布P(Y|X) 统计学习三要素 标注常用的统计学习方法有:隐马尔可夫模型、条件随机场。 回归问题 回归用于预测输入变量和输出变量之间的关系,回归模型表示从输入变量到输出变量之间映射的函数,回归问题的学习等价于函数拟合。

    88920发布于 2018-10-11
  • 来自专栏arXiv每日学术速递

    统计学学术速递

    点击阅读原文即可访问 stat统计学,共计40篇 【1】 Active Learning with Multifidelity Modeling for Efficient Rare Event Simulation \{\frac{\varepsilon\u1}{\varepsilon\u2^2},\left(\frac{\varepsilon\u1}{\varepsilon 2^2}\right)^{! \u 2$。 {2}} + \frac{n}{\log n} \cdot \max \left\{\frac{\varepsilon_1}{\varepsilon_2^2},\left(\frac{\varepsilon _1}{\varepsilon_2^2}\right)^{\!

    1.4K30发布于 2021-07-02
  • 来自专栏arXiv每日学术速递

    统计学学术速递

    点击阅读原文即可访问 stat统计学,共计46篇 【1】 Analysis of the evolution of agroclimatic risks in a context of climate 然后,我们将搜索量信息与COVID-19时间序列信息相结合,进一步发展了一个流感追踪模型,以预测未来2周内美国国家层面的COVID-19死亡人数。 然后,这些ARGOX变量以赢家通吃的集成方式进行聚合,以生成最终的州级2周预测。数值实验表明,该方法稳定地优于时间序列基线模型,在公开的基准模型中达到了最先进的性能。 更具体地说,我们专注于L2正则化回归问题的数据子集选择,并提供了一个新的问题公式,该公式寻求在验证集上受误差界影响的情况下,最小化关于可训练参数和训练数据子集的训练损失。 相反,我们发现电导率数据的双峰非标准超统计,我们使用两个组合的$\chi^2$-分布来建模。

    1.1K10发布于 2021-07-02
  • 来自专栏arXiv每日学术速递

    统计学学术速递

    该系统设计用于数学和统计学教学,但原则上也可用于其他学科。该系统提供了数以千计的多项选择题在高中和大学水平。除了作为学生学习的工具外,它还被用作网络辅助教育研究的试验台。 我们建立了项目反应理论与统计学相关主题之间的联系,包括经验贝叶斯、非参数方法、矩阵完备、正则化估计和序列分析。从统计学习的角度讨论了IRT未来可能的发展方向。 假设在附加数据集上有足够的覆盖率,我们表明PGAP实现了$\widetilde{\mathcal{O}(H^{2}dK^{-1/2}+H^2d^{3/2}Nè2^{-1/2}+H^{3/2}dNè1^{ d^{3/2}K^{1/2}+KH^{3/2}dN_1^{-1/2})$ regret. dK^{-1/2} +H^2d^{3/2}N_2^{-1/2}+H^{3/2}dN_1^{-1/2} \ )$ optimality gap.

    80910发布于 2021-08-24
  • 来自专栏MiningAlgorithms

    统计学基础(二)

    中心极限定理是说,n只要越来越大,这n个数的样本均值会趋近于正态分布,并且这个正态分布以u为均值,sigma^2/n为方差。 这两个定律都是在说样本均值性质。 2),样本每组要足够大,但也不需要太大: 取样本的时候,一般认为,每组大于等于30个,即可让中心极限定理发挥作用。 ? 2,置信区间: 定义:置信区间是指由样本统计量所构造的总体参数的估计区间。 在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。 上图中:样本均值以95%的概率落入区间[-2, 2] 以下海捕鱼为例:我知道一百次网下去,可能会有95次网到我想要的鱼,但是我并不知道这一网能不能捕到想要的鱼。

    85020发布于 2019-08-08
领券