搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器学习/数据可视化
统计学习方法导论—2
过拟合是指学习时选择的参数过多过拟合对已知数据能够很好的判断，但是对未知数据预测的效果很差模型选择的目的在于避免过拟合并且提高模型的预测能力栗子：对M次多项式进行拟合 f_M(x,w)=w_0+w_1x+w_2x2 =0}Mw_jxj 解决办法：确定模型的复杂度，即多项式的次数在给定的模型复杂度下，根据经验风险最小的策略，求解参数，即多项式的系数经验风险最小化 L(w)=\frac{1}{2} \sum_{i=1}{N}(f(x_i,w)-y_i)2 损失函数是平方损失，系数\frac{1}{2}是为了后续的求导计算。 \lambda ||w||1 者表示成参数向量的范数 L(w)=\frac{1}{N}\sum{i=1}N(f(x_i;w)-y_i)2+{\frac{\lambda}{2}||w||^2} 正则化作用 y_2),…(x_i,y_i),…,(x_N,y_N)} N是样本容量，T是从联合概率分布假设空间是函数的集合\Gamma = {f_1, f_2, …, f_d}，d是函数的个数。
58130发布于 2021-03-02
来自专栏机器学习、深度学习
统计学习导论 Chapter2--What Is Statistical Learning?
Learning with Applications in R http://www-bcf.usc.edu/~gareth/ISL/ 这是第二章，简要介绍统计学习中的一些基本概念假定我们观察到一个定量响应变量 Y 和 p个不同的 predictors， X_1, X_2 ,…, X_p， X 和Y 存在一定的关系，这里我们用一个公式表示，其中 f 是关于 X_1, X_2 , In essence, statistical learning refers to a set of approaches for estimating f 本质上来说，统计学习就是关于估计 f 我们这里称之为 reducible error and the irreducible error，通常 f^ 不是 f 的一个完美估计，f^ 引入的误差是 reducible ，因为我们可以通过使用更合适的统计学习算法来对 2）模型定下来之后，我们需要一个 procedure 来将训练数据对模型进行拟合或训练。对于线性模型，我们可以使用 (ordinary) least squares 来估计参数。
1.1K80发布于 2018-01-03
来自专栏人人都是数据分析师
统计学(2)|AB测试—理论基础
ZZ之前承诺以A/B测试为案例，串联起统计学的理论，让理论直接落地于实践，搭建起统计学理论与工作实践的桥梁。所以，为了实现吹过的牛逼，这篇”A/B测试—理论基础“应运而生。 2 A/B测试的本质上一篇统计学必知必会中，ZZ详细的剖析了统计学中关于假设检验部分的发展历程，从计数到均值方差；从总体到样本；从频率到概率；从指标到分布；最后由于现实世界的限制，研究从样本推断总体，进而引出统计量，抽样分布，最后引出假设检验，下面是详细链接，没有看过同学建议移步先行阅读一下： 统计学(1)|白话统计学发展(含统计学必知必会) 那么本质上来说，A/B测试就是假设检验理论的一个实际应用而已 统计学有一个经典的思想是小概率事件几乎不可能发生，那么如果我们找到了一个小概率事件发生了，我们就找到了解题的钥匙。当总体是正态分布的情况下，我们可以推导出关于样本方差 S^{2}的分布形式为(具体推导过程感兴趣的同学在评论区留言，我会把推导过程回复)：其中，为自由度为的卡方分布，需要注意的是，样本方差的此分布形式有前提
1.5K20发布于 2021-05-13
来自专栏iOSDevLog
《统计学习方法》第 2 章感知机
Statistical Learning Method 统计学习方法 https://pypi.org/project/slmethod/ import numpy as np import matplotlib.pyplot sklearn.datasets import make_classification %matplotlib inline 生成数据 # X 为样本特征，y 为样本类别输出，共 30 个样本，每个样本 2 n_features=2, n_informative=2, n_redundant=0, n_classes=2, n_clusters_per_class=1, random_state ', label='sklearn', linewidth=0.3) [<matplotlib.lines.Line2D at 0x12bdbe320>] ?
53160发布于 2019-06-11
来自专栏闪电gogogo的专栏
《统计学习方法》笔记六（2）最大熵模型
本系列笔记内容参考来源为李航《统计学习方法》知识概要 ? 最大熵原理认为学习概率模型时，熵最大的模型是最好的模型。设离散随机变量X的概率分布是P(X)，则其熵是 ? ?
84730发布于 2018-12-07
来自专栏人人都是数据分析师
统计学(1)|白话统计学发展(含统计学必知必会)
本文是个人思考后输出的合乎逻辑的统计学发展历程，旨在为广大对统计学感兴趣的同学提供一个顺滑的学习路线和一个整体的逻辑框架。 ? 2何为统计？首先，对于统计的这个话题，需要明确我们在讨论什么？ 2）有了均值来衡量平均水平，那么人们自然会关注个体与平均水平的差异，这是人性使然。 13）统计学发展至此，已经覆盖大部分日常生活中的应用，ZZ叙述的这个发展过程，希望指引广大爱好的统计学的同僚更加顺滑的学习统计学知识。 4统计学必知必会如果大家认可以上的统计学发展过程，这其中的必知必会就呼之欲出：均值、方差、最大值、最小值、中位数等统计值的概念；事件、总体、样本、个体的概念；频率、概率、分布等概念，了解常用分布 5小结以上统计学发展和必知必会覆盖大部分日常统计工作，也涉及了应用最广范的假设检验，但是本文旨在为学习统计学的同学提供一个指引，对于其中具体理论和实际应用并未多涉及。
92620发布于 2021-05-13
来自专栏SnailTyan
统计学习方法(一)——统计学习方法概论
统计学习方法概论本文是统计学习方法（李航）第一章的学习总结。 统计学习的特点：(1)以计算机和网络为平台；(2)以数据为研究对象，是数据驱动的学科；(3)目的是对数据进行分析和预测；(4)以方法为中心，构建模型并应用模型进行分析和预测；(5)是概率论、统计学、信息论 2.统计学习的对象 统计学习的对象是数据（data）。它从数据出发，提取数据特征，抽象出数据模型，根据模型对数据进行分析和预测。统计学习的前提是假设同类数据（具有某种共同性质）具有一定的统计规律性。 5.统计学习的研究 统计学习的研究包括统计学习方法（算法创新）、统计学习理论（算法效率及有效性）及统计学习应用（解决问题）三个方面。 6.统计学习的重要性 统计学习的重要性体现在三个方面：（1）统计学习是处理海量数据的有效方法。（2）统计学习是计算机智能化的有效手段。（3）统计学习是计算机发展的重要组成部分。
1.2K20发布于 2019-05-25
来自专栏iOSDevLog
《统计学习方法》第 2 章感知机可视化
选取初值在训练集中选取数据如果转至 2，直至训练集中没有误分类点。感知机学习算法的对偶形式在训练集中选取数据如果转至 2 直到没有误分类数据。数据 def show2d(self, name=None): if (self.X.shape[1] ! = 2): raise ValueError("X must have 2d array.") Perceptron(dual=False) origin_clf.fit(X, y) print(origin_clf.w) print(origin_clf.b) origin_clf.show2d
64610发布于 2019-06-11
来自专栏闪电gogogo的专栏
《统计学习方法》笔记一 统计学习方法概论
统计学习 统计学习时关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析。 统计学习的三要素：方法 = 模型+策略+算法 统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。实现统计学习方法的具体步骤如下：（1）得到一个有限的训练数据集合；（2）确定包含所有可能的模型的假设空间，即学习模型的集合；（3）确定模型选择的准则，即学习的策略；（4）实现求解最优模型的算法，标注问题：输入、输出变量均为变量序列的预测问题监督学习的任务就是学习一个模型，应用这一模型，对给定的输入预测相应的输出，这个模型的一般形式为决策函数：Y=f(X)或者条件概率分布P(Y|X) 统计学习三要素标注常用的统计学习方法有：隐马尔可夫模型、条件随机场。回归问题回归用于预测输入变量和输出变量之间的关系，回归模型表示从输入变量到输出变量之间映射的函数，回归问题的学习等价于函数拟合。
1K20发布于 2018-10-11
来自专栏数据派THU
谷歌统计学家表示“统计学很无聊“
来源：数学加油吧机器学习算法与Python实战本文约3500字，建议阅读7分钟本文为你分享谷歌的统计学家 Cassie Kozyrkov 对于统计学的观点。 统计学是通过搜索、整理、分析、描述数据等手段，以达到推断所测对象的本质，甚至预测对象未来的一门综合性科学。嗯，以上是统计学课本中对统计学的定义！但是近日，一位来自谷歌的统计学家却发长文表示“统计学很无聊。“ 这位统计学家叫 Cassie Kozyrkov，目前是 Google 的首席决策师。让我们先普及一些统计学的入门级概念，然后跟着这位统计学家一起，看看她的逻辑证明。总体当一个普通人想到“population”这个词时，他会想到什么？人，对吗？我花了十多年的时间致力于统计学，它并不是一门一无是处的学科。所以，在合适的时候使用统计方法才是有用的，非常有用的。最后，你什么时候真的需要统计学呢？
53420编辑于 2023-03-29
来自专栏AI金融科技
统计学方法
对x1 < x <x2 x' = 1 - (x2 - x)/(x2 - x1) 2. getCondEntropy(s1, s2) ## 计算增益率 def getEntropyGainRadio(s1, s2): return getEntropyGain(s1, s2) / getEntropy(s2) ## 衡量离散值的相关性 import math def getDiscreteCorr(s1, s2): return getEntropyGain(s1,s2) , 'X2' , 'X2' , 'X2']) s2 = pd.Series(['Y1' , 'Y1' , 'Y1' , 'Y2' , 'Y2' , 'Y2']) print('CondEntropy getGini(s1, s2)) ```
1.2K10发布于 2021-03-05
来自专栏Hank’s Blog
统计学(一)
分位数使用QUARTILE函数算出第一分位数:25%分位数第二分位数:中位数第三分位数:75%分位数
41920发布于 2020-09-16
来自专栏机器学习与统计学
基础统计学
Ai学习的老章长期跟踪关注统计学、机器学习算法、深度学习、人工智能、大模型技术与行业发展动态，日更精选技术文章。回复机器学习有惊喜资料。用帕累托图展示空难原因图2-8展示了基于表2-3的帕累托图。图 2-8 和表 2-3 使用了相同的数据，但图 2-8 能让读者更加鲜明地看到，飞行员失误是空难的最重要原因。另外，图 2-8 并没有严格遵循长条高度从左到右依次递减的要求，而是将“其他原因”的组放置在图的最右边起到可视化的效果。概率在统计学中的角色概率在假设检验中起到了关键作用。 统计学家根据数据做决策：根据低概率排除偶然发生的可能性。请看以下关于概率的作用和统计学家思维方式的例子。概率论基础事件是一个过程的结果或结果的任意集合。简单事件是不能进一步拆分的结果或事件。希望每一位学习统计学的小伙伴来都拥有这本案头宝典。
43910编辑于 2025-06-15
来自专栏arXiv每日学术速递
统计学学术速递
点击阅读原文即可访问 stat统计学，共计28篇【1】 Probabilistic Forecast Combination for Anomaly Detection in Building Heat based anomaly detection provides improved accuracy when employing a forecast combination approach. 【2】具有单位方差分量的任意相关联合高斯随机向量$X$的$k$阶统计量位于长度$\varepsilon$的区间内的概率在$2{\varepsilon}k（{1+\mathrm{E}[\\ X\\ infty] with unit variance components lies within an interval of length $\varepsilon$ is bounded above by $2{ 该模型包含一个密度参数$\mu$、一个$2n$维节点参数${\theta}$和一个固定维协变量回归系数${\gamma}$。由于参数个数随$n$增加，渐近理论是非标准的。
78930发布于 2021-07-27
来自专栏arXiv每日学术速递
统计学学术速递
stat统计学，共计15篇【1】 Spatio-temporal Parking Behaviour Forecasting and Analysis Before and During COVID SCRI, The Hong Kong Polytechnic, Hong Kong, China, Institute of Remote Sensing and 备注：DeepSpatial '21: 2nd behaviour forecasting, which can benefit future studies on epidemiology and human travel behaviours. 【2】在本文中，我们对切比雪夫估计量$\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}^*\\\124; U 2$的估计误差$\\hat{\boldsymbol{\beta non-asymptotic upper bounds on the estimation error $\|\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}^*\|_2$
60630发布于 2021-08-24
来自专栏arXiv每日学术速递
统计学学术速递
stat统计学，共计42篇【1】 Nonparametric Sparse Tensor Factorization with Hierarchical Gamma Processes 标题：基于分层经典的二维（2D）RadViz通过将每个观测值映射到单位圆内的一个点来可视化2D平面上的多变量数据。我们的工具RadViz3D在3D单位球体上均匀分布锚定点。 The classical two-dimensional (2D) RadViz visualizes multivariate data in the 2D plane by mapping every Delta variant. 【7】 Advanced Statistical Learning on Short Term Load Process Forecasting 标题：短期负荷过程预测的高级统计学习我们提出了不同的统计非线性模型来管理这些硬类型数据集的挑战，并预测未来2天内15分钟的频率电力负荷。
1.6K10发布于 2021-10-22
来自专栏arXiv每日学术速递
统计学学术速递
stat统计学，共计36篇【1】 Bayesian Learning: A Selective Overview 标题：贝叶斯学习：选择性综述链接：https://arxiv.org/abs/2112.12722 Physics, University of Cambridge, Ratti) Department of Mathematics, University of Genoa 摘要：统计逆学习理论是逆问题与统计学习交叉的一个领域我们还证明了我们的条件比假设绝对值向量$|\boldsymbol{X}|=（| X|u 1 |，| X|u 2 |，\dots，| X|d |）$在$[0,infty）^d$上是阶$2$（$\mathrm {MTP}2$）的多元全正向量弱，对于这一点，我们已经知道这个猜想是真的。 ,\dots,|X_d|)$ to be in the multivariate totally positive of order $2$ ($\mathrm{MTP}_2$) class on $[
94820编辑于 2021-12-27
来自专栏arXiv每日学术速递
统计学学术速递
点击阅读原文即可访问 stat统计学，共计48篇【1】 Spectral goodness-of-fit tests for complete and partial network data 标题： 1 2 2 40 5 链接：https://arxiv.org/abs/2106.09702 摘要：网络描述了个体参与者之间的关系，这种关系往往很复杂。作者：Young-Geun Choi,Seunghwan Lee,Donghyeon Yu 链接：https://arxiv.org/abs/2106.09382 摘要：大规模稀疏精度矩阵估计引起了统计学界的广泛兴趣这些措施结合起来，通过定量评估，大大降低了SARS-CoV-2在空气中传播的风险。在HyperRec和其他真实数据库上的大量实验说明了我们的AT2方法的有效性。
1.5K10发布于 2021-07-02
来自专栏数据的力量
如何学习统计学
因该说，这是应用统计学教育的成功，尽管在统计学的（有意）误用方面，他们常受指摘。这里我熟一点的是安德森的《商务与经济统计》和林德的《商务与经济统计技术》，也有影印版，都多次重印的经典教材。为简单起见，假定只有0、1、2三个数字，且每个数字出现在每张纸条上的可能性都是1/3。比如头一张纸条上的数字是2，第二张纸条的数字是0，第三张纸条是2，如此等等。假设构成这个第一份样本的200张纸条上的数字总和是210，这个和成为所产生的新的分布的第一项。例子2。考察每个人的智力水平，也可以当作出自不同根源的小影响的和来看待，包括营养、机会、性格、遗传等等。这么看来，大量的人的智力水平的分布式正态的。来源：微信公众号---小小统计学，作者：胡江堂
78530发布于 2018-06-20
来自专栏arXiv每日学术速递
统计学学术速递
stat统计学，共计25篇【1】 A New Asymmetric Copula with Reversible Correlations and Its Application to the EU In contrast, Germany had negative stock-bond correlation before and after the crisis. 【2】 Optimal Order automatic processes) is prohibited without ex-, plicit Publisher approval., Boston — Delft 摘要：本专著开发了一个全面的统计学习框架】 Statistical Learning to Operationalize a Domain Agnostic Data Quality Scoring 标题：将领域无关数据质量评分付诸实施的统计学习我们进行实验，从经验上证明SPO+替代物在投资组合分配和成本敏感的多类别分类问题上的强度，与标准的$\ell_1$和平方$\ell_2$预测误差损失相比。
66730发布于 2021-08-24

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

统计学习方法导论—2

统计学习导论 Chapter2--What Is Statistical Learning?

统计学(2)|AB测试—理论基础

《统计学习方法》第 2 章感知机

《统计学习方法》笔记六（2）最大熵模型

统计学(1)|白话统计学发展(含统计学必知必会)

统计学习方法(一)——统计学习方法概论

《统计学习方法》第 2 章感知机可视化

《统计学习方法》笔记一统计学习方法概论

谷歌统计学家表示“统计学很无聊“

统计学方法

统计学(一)

基础统计学

统计学学术速递

统计学学术速递

统计学学术速递

统计学学术速递

统计学学术速递

如何学习统计学

统计学学术速递

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

统计学习方法导论—2

统计学习导论 Chapter2--What Is Statistical Learning?

统计学(2)|AB测试—理论基础

《统计学习方法》第 2 章 感知机

《统计学习方法》笔记六（2） 最大熵模型

统计学(1)|白话统计学发展(含统计学必知必会)

统计学习方法(一)——统计学习方法概论

《统计学习方法》第 2 章 感知机 可视化

《统计学习方法》笔记一 统计学习方法概论

谷歌统计学家表示“统计学很无聊“

统计学方法

统计学(一)

基础统计学

统计学学术速递

统计学学术速递

统计学学术速递

统计学学术速递

统计学学术速递

如何学习统计学

统计学学术速递

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

《统计学习方法》第 2 章感知机

《统计学习方法》笔记六（2）最大熵模型

《统计学习方法》第 2 章感知机可视化

《统计学习方法》笔记一统计学习方法概论