首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏优雅R

    数据科学23 | 统计推断-多重检验

    当我们进行数据分析时,有时候需要反复进行假设检验,使用多重检验校正可以避免假阳性的发生,主要包括误差测量和校正。

    2.3K21发布于 2020-07-03
  • 来自专栏优雅R

    数据科学22 | 统计推断-多重检验

    统计分析时进行多次假设检验,多重检验校正可以降低假阳性结果的发生。 ➢校正显著性水平?

    1.3K11发布于 2020-07-03
  • 来自专栏优雅R

    数据科学18 | 统计推断-渐近性

    渐近性(asymptopia)是样本量接近于无穷大时统计行为的一个术语。渐近统计即大样本统计主要研究当样本量n→∞时统计方法的有关渐进性质。渐近性有助于简单的统计推断和估计,也是频率解释概率的基础。 随机变量服从正态分布 n <- 10000 means <- cumsum(rnorm(n))/(1:n) #生成10000个标准正态分布随机数,求累积平均值 #即第1个观测值的平均值、前2个观测值的平均值、前3个观测值的平均值 一般来说,二项分布试验中,小数点后1位的变化需要样本量为100,2位需要10 000,3位需要1000 000。 round(1/sqrt(10^(1:6)), 3) [1] 0.316 0.100 0.032 0.010 0.003 0.001 计算Wald置信区间: 0.56 + c(-1, 1) * qnorm x<-5 t <- 94.32 lambda <- x/t round(lambda + c(-1, 1) * qnorm(0.975) * sqrt(lambda/t), 3) [1] 0.007 0.099

    2.9K30发布于 2020-07-03
  • 来自专栏机器学习与统计学

    Duke@coursera 数据分析与统计推断 unit3 foundations for inference

    weretrue, and hence do not reject H0 interpreting the p-value ‣ If in fact college students have been in3 reject H0. ‣ The data do not provide convincingevidence that college students have been in more than 3 relationships onaverage. ‣ The difference between the null value of3 relationships and the observed sample

    91310发布于 2019-04-10
  • 来自专栏优雅R

    数据科学16 | 统计推断-概率和条件概率

    统计学一般分统计描述及统计推断两部分。 统计描述是通过图表或数学方法,对数据资料进行整理后描述数据的客观规律,而统计推断则是使用从总体中随机抽取的数据样本,用样本数据总结的规律去对总体的未知特征进行推断。 本章主要学习统计推断常见的概念及相关基础内容。 1. 概率(probability) 概率衡量一个随机事件发生在所有事件的集合里占的比重,是对随机事件发生的可能性的度量。 假设一个热线电话在任意一天内接起的电话占这一天内打来的所有电话的比例满足: x <- c(-0.5, 0, 1, 1, 1.5) y <- c(0,0,2,0,0) plot(x, y, lwd = 3, 统计推断目标是用样本估计总体,样本中位数将估计总体中位数;样本均值将估计总体均值;样本标准差将估计总体标准差,等等。 2.

    1.4K10发布于 2020-07-03
  • 来自专栏云深之无迹

    统计推断-样本分布碎碎念

    啥是分布,先不说三大分布,就说真实的汉语意思:(得到精确的分布就是统计的目的) 就是散布的意思 比如这样 OK,我们从一堆东西,也就是样本中尽量提取出一些信息出来,这些信息统称为统计量,完全由样本所决定的量叫作统计量 想法是,我们现在现在先猜是属于正态分布的,但是两个参数不知道: 在统计中总体是未知的,是需要通过样本来推断的,所以用虚线和灰色来表示(总体的分布未知,总体的参数μ、σ^2也未知). 有偏差 嗷嗷 我这里插个大数定理,一个定理一个推论 其实这个就是说的独立同分布的中心极限定理 一些推导 或者直接记住这个,其实书上还有两个,不考,就不写 正态分布态广泛了,这些样本的整体可以构造好多统计量 大概就是这样 两个卡方组一个F 图像如此 三大分布完事以后,继续讨论统计量的分布,上面说了均值,现在是方差。 surface键盘真垃圾 比耶,两天学完数理统计

    29910编辑于 2024-08-21
  • 来自专栏数据派THU

    【经典书】统计学中的因果推断

    来源:专知本文为书籍介绍,建议阅读5分钟本文为你介绍统计学中的因果推断。 Causal Inference in Statistics: A Primer一书的分享解读主要被分为四个部分: 第一部分:从宏观角度分析了因果科学的研究意义,巩固了统计学的基础知识,包括变量、概率、

    65830编辑于 2022-06-16
  • 来自专栏信数据得永生

    数据科学 IPython 笔记本 六、SciPy 统计推断

    六、SciPy 统计推断 原文:statistical-inference-scipy 译者:飞龙 协议:CC BY-NC-SA 4.0 6.1 效应量 署名:派生于 Allen Downey numpy.random.seed(17) # 来自 http://colorbrewer2.org/ 的一些漂亮的颜色 COLOR1 = '#7fc97f' COLOR2 = '#beaed4' COLOR3 COLOR2) xs, ys = eval_pdf(female_height) pyplot.plot(xs, ys, label='female', linewidth=4, color=COLOR3) cohen_d, 1) xs, ys = eval_pdf(control) pyplot.fill_between(xs, ys, label='control', color=COLOR3, 在正常情况下,我们也可以推断出表观效应不太可能是由随机抽样引起的。 最后一点:在这种情况下,我会报告p值小于 1/1000 或 0.001。

    1.1K30编辑于 2022-05-07
  • 来自专栏c/c++的学习笔记

    python数据分析——数据分析的统计推断

    三、统计推断 统计推断包括:对总体的未知参数进行估计,对关于参数的假设进行检查和验证,对总体进行预测。科学的统计推断所使用的样本,通常通过随机抽样方法得到。 统计推断的理论和方法论的基础是来自于概率论和数理统计学。统计推断的一个基本特点是其所依据的条件中包含有带随机性的观测数据。 如何理解带随机性的观测数据? 四、统计推断步骤 那么我们如何进行统计推断?当我们获得有效样本数据后,统计推断问题可以按照如下的步骤进行: 步骤1:确定用于统计推断的合适统计量。 步骤2:寻找统计量的精确分布。 如果出现统计量的精确分布难以求出的情况下,可考虑利用中心极限定理或其它极限定理找出统计量的极限分布。 步骤3:基于该统计量的精确分布或极限分布,求出统计推断问题的精确解或近似解。 步骤4:根据统计推断结果对问题作出解释。 统计推断的基本问题可以分为两大类: 一类是参数估计问题,包括点估计和区间估计; 另一类是假设检验问题。我们将分别进行介绍。

    93210编辑于 2024-03-20
  • 来自专栏生物信息学、python、R、linux

    GENIE3||基因调控网络推断

    GENIE3是一种从基因表达数据推断基因调控网络的方法。它训练预测数据集中每个基因表达的随机森林模型,并将转录因子(TF)的表达用作输入。 GENIE3的输出是一张带有调节基因,靶基因及权重的表格,它表示TF(输入基因)在预测目标中的权重。 library(GENIE3) exprMatr <- matrix(sample(1:10, 100, replace=TRUE), nrow=20) rownames(exprMatr) <- paste GENIE3利用回归树从表达数据推断基因调控网络(以加权邻接矩阵的形式)。 weightMat[1:5,1:5] ? inst/doc/GENIE3.html

    2.9K20发布于 2020-12-02
  • 来自专栏优雅R

    数据科学17 | 统计推断-期望方差和常见概率分布

    统计推断中,用样本均值估计总体分布的均值(期望值),样本量越多,样本均值约接近总体均值。 例:HistData包中的Galton数据集,包括父母和孩子的身高。 之间距离平方的期望:统计描述中,总体方差 ;样本方差 。 ?为总体均值, 为样本均值。 ・样本方差 以估计总体方差 。 样本方差也是一个随机变量,样本方差的期望值是它试图估计的总体方差。 -3?,?+3?)内的面积约为99%;即变量值x落在(?-3?,?+3?)区间的概率约为99%。 观察公交站4小时,计算出现3个或更少人的概率。 ppois(3, lambda = 2.5 * 4) [1] 0.01034 例:假设抛一枚不规则的硬币正面向上的概率为0.01,抛500次,计算两次或更少正面向上的概率。

    2.1K20发布于 2020-07-03
  • 因果推断新方法:识别统计异常值的根源

    异常值问题是统计学中最古老的问题之一,已成为学术研究超过一个世纪的主题。尽管在检测异常值方面已有很多工作,但缺乏一种形式化的方式来定义异常值的“根本原因”。

    15610编辑于 2026-01-26
  • 来自专栏BioIT爱好者

    癌症中克隆种群结构统计推断分析软件PyClone安装小记

    PyClone 是一种用于推断癌症中克隆种群结构的统计模型。 在这里,我们使用 Anaconda3(conda 4.5.11) 来安装 PyClone。 (pyclone) shenweiyan@ecs-steven 13:38:25 /home/shenweiyan $ PyClone -h /usr/local/software/anaconda3/ from .tslib import iNaT, NaT, Timestamp, Timedelta, OutOfBoundsDatetime /usr/local/software/anaconda3/ #11628 anaconda-issues,#6678 aroth85/pyclone,GitHub YTer,Pyclone 说明,Hexo 个人博客 用户1680321,安装使用pyclone进行克隆演化推断

    3.9K20发布于 2018-11-01
  • 来自专栏java架构学习交流

    概率分析方法与推断统计(来自我写的python书)

    在数据分析统计的场景里,常用的方法除了描述性统计方法外,还有推断统计方法,如果再从工作性质上来划分,推断统计包含了参数估计和假设验证这两方面的内容。 而推断统计用到了很多概率统计方法,所以本小节在介绍推断统计的内容前,还将讲述一些常用的概率统计方法。 (即3σ)内的范围内。 3 验证序列是否满足正态分布 之前提到,很多数学统计规律和方法是基于正态分布的,也就是说,如果某组样本变量符合正态分布,那么就可以用到这些规律和方法来进行分析或预测工作。 4 参数估计方法 参数估计方法是推断统计的一种方法,该方法的理论基础是正态分布,也就是说,如果该方法的适用范围是满足正态分布的序列。

    1.1K10发布于 2021-03-02
  • 来自专栏优雅R

    数据科学19 | 统计推断-t分布置信区间

    偏态分布的数据不满足t分布置信区间的假设,置信区间的中心落在均值处没有意义,可以考虑使用对数处理数据,或使用其他统计量如中位数。 data(sleep) head(sleep) extra group ID 1 0.7 1 1 2 -1.6 1 2 3 -0.2 1 3 4 -1.2 画出原始数据: meanweight<-ChickWeight %>% group_by(Time,Diet) %>% summarise(weight = mean(weight)) #按Time统计 dbl> 1 0 1 41.4 2 0 2 40.7 3 0 3 40.8 4 0 4 41 5 2 实际上,方差不齐的独立样本的相关标准化统计量不服从t分布,当其自由度用这种方式计算下才近似t分布。 例:比较8名口服避孕药及21名空白对照患者的血压。

    4.2K20发布于 2020-07-03
  • 来自专栏人人都是数据分析师

    因果推断文献解析|A Survey on Causal Inference(3)

    一 介绍 上一篇ZZ介绍了本篇综述的背景知识和相关数学符号表示,了解到了本篇文章主要是关于基于“潜在结果框架”的因果推断方法综述,并且明确了样本,策略,潜在结果,混杂和混杂带来的辛普森悖论和选择性偏差等概念 下面我们书接上文,进入到解决因果推断问题具体的方法的解析,首先附一下上篇内容:因果推断文献解析|A Survey on Causal Inference(2),论文原文点击文末阅读原文即可查看。 二正文解析 3、基于三个假设下的因果推断方法 在这个部分,作者将介绍基于上一节中三个假设下的因果推断方法。 根据这些方法控制混杂方法的不同,作者将这些方法分为了7个小类:(1) 权重更新方法;(2) 分层方法;(3) 匹配方法;(4) 基于树的方法;(5) 基于表示学习的方法;(6) 多任务学习方法;(7) 作者呢,首先介绍基于三个假设下的因果推断方法来处理混杂带来的选择偏差,作者将这些方法分层了7个小类,我们本节介绍了第一个类“权重更新方法”,其余的方法解析后续ZZ带大家继续前进。

    2.2K20发布于 2021-05-13
  • 来自专栏AI科技大本营的专栏

    课程 | 8小时搞定机器学习之概率与统计推断

    没错,我们的美女老师冒老师要开新课啦~~~专门为你排忧解难,解决各大数学问题——《机器学习之概率与统计推断》在等你哦! 概率与机器学习算法? 抢先体验冒老师的讲课风格,超?????好评

    73980发布于 2018-04-26
  • 基于代理似然函数的随机图统计推断技术解析

    Graphs With a Surrogate Likelihood Function Dingbo Wu, Fangzheng Xie; 26(230):1−65, 2025.摘要谱估计器已被广泛应用于统计网络分析 本文提出了一种用于一类流行网络模型(称为随机点积图)统计推断的新型代理似然函数。与结构复杂的精确似然函数相比,该代理似然函数具有可分离结构和对数凹性,同时能很好地逼近精确似然函数。

    6900编辑于 2026-01-12
  • 来自专栏医学和生信笔记

    多变量数据的统计描述和统计推断(hotelling-T检验、多元方差分析、轮廓分析)

    本章的所有统计描述与统计推断都与单变量分析有关,如单变量均数、单变量方差、单变量t检验、单变量方差分析等,只是采用了适合多个反应变量的向量和矩阵的表示方法。 本章介绍的多变量数据的统计描述和统计推断方法是多元统计分析的基础,多元统计分析方法主要包括以下几种:聚类分析、主成分分析、因子分析、判别分析、结构方程模型等。 NA 以上3个多元描述统计量,均值向量描述3个测量指标的平均水平,协方差矩阵描述这3个指标的变异程度,相关矩阵描述这3个指标的相关性。 unsetunset多元正态分布unsetunset 在单变量统计描述和推断中,通常假定数据服从正态分布。同理,在多变量统计描述和推断中,也是通常假定数据服从多元正态分布。 ## weight height ## 3.148571 48.571429 下面进行多变量的统计推断,也是使用hotelling-T2检验: with(data14_3, ICSNP

    19110编辑于 2026-03-17
  • 来自专栏文渊之博

    因果推断

    前言 Judea Pearl是图灵奖得主,因果推断的奠基人之一。 由于阅读的论文中涉及到反事实推断中Total Effect(TE), Natural Direct Effect(NDE), Total Indirect Effect(TIE)等概念,涉及到反事实推断方法的核心 3. 正式分析 3.1 符号 X代表控制变量,即需要研究X对其他变量的因果效应。 一般用x∗ 表示干预之前的取值,x ·  表示干预之后的取值。 Y代表结果变量。 Y的平均自然直接效应为: NDE(x,x∗;Y)=Eu(Yx,Zx∗)−Eu(Yx∗)(6) 3.4 自然直接效应:识别 从观测数据中,无法直接估计自然直接效应,换句话说,自然直接效应无法被直接转化为统计量 x;Y)(13)(14) 在线性系统中,有: TE(x,x∗;Y)=NDE(x,x∗;Y)+NIE(x,x∗;Y)(15) 要特别注意,上式只适用于线性模型,另一篇最新的文章给出了定量分析,详见【因果推断论文

    90331编辑于 2023-03-19
领券