首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用频率、Bins、CDF、Python进行卡方检验

使用频率、Bins、CDF、Python进行卡方检验
EN

Stack Overflow用户
提问于 2010-10-25 04:17:03
回答 2查看 3.3K关注 0票数 2

我正在尝试为Beta分布从头开始编写一个卡方拟合优度测试,而不使用任何外部函数。下面的代码报告fit为'1‘,即使来自scipy.stats的kstest返回0。数据是正态分布的,所以我的函数也应该返回零。

代码语言:javascript
复制
import numpy as np
from scipy.stats import chi2
from scipy.stats import beta
from scipy.stats import kstest
from scipy.stats import norm

preds = norm.rvs(5,2,size=200)
preds.sort()

bin_size = 30
bins = np.linspace(0,10,bin_size)
counts = np.digitize(preds, bins)
mean = 5
var = 2

sum = 0
for i in range(len(bins)-1):
    p = beta.cdf(bins[i+1], mean, var) - beta.cdf(bins[i], mean, var)  
    freq = len(counts[counts==i]) / float(len(counts))    
    sum = sum + ((freq - p)**2)/p

dof = len(counts)-2
pval = 1 - chi2.cdf(sum, dof)
print pval

在代码中,我创建了bin,基于bin测量频率,使用Beta分布CDF计算预期频率,并将其相加得到X^2测试统计量。

kstest调用是

代码语言:javascript
复制
print kstest(preds, 'beta', [mean, var])

我在这里做错了什么?

谢谢,

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-10-25 05:13:36

问题出在自由度定义上:

dof = len(preds)-2

是正确的选择。此外,为了得到一致的'0‘结果,我不得不将bin大小减少到15。众所周知,X^2测试对bin大小很敏感。

票数 0
EN

Stack Overflow用户

发布于 2014-04-28 01:36:40

我不认为您对自己的问题的回答是正确的,并且您的代码中存在一系列问题。

首先,根据您的实现,使用len(counts)-2计算的dof与使用len(preds)-2计算的dof是相同的。所以改变这一点不会有任何不同。

其次,要对参数fit进行X^2测试,您需要构造许多具有MECE的bins,这意味着bins之间没有重叠,它们共同跨越X的所有可能值。但是,通过使用bins = np.linspace(0,10,bin_size)设置回收站,您迫使最右侧的回收站在10停止。而高斯分布的范围是-inf到inf。因此,您生成的随机数有可能会在10上传播。

但与这个相比,这可能不是什么大问题:传统上要求每个bin的计数数量至少为5。但是,使用您的方法来计算落入存储箱中的数字(这里设置为30个存储箱)可能并且实际上总是小于5,甚至0。在随后的sum计算中,任何bin中的0计数都会导致无穷大,这可能会导致拒绝,无论拟合是好是坏。我认为这就是为什么在将dof改为len(preds)-2后得到0的原因,你只是碰巧在二进制数中至少有一个0。

另一个问题是CH1^2的计算。我认为你不使用频率,而是每个bin中的实际计数:

代码语言:javascript
复制
p = beta.cdf(bins[i+1], mean, var) - beta.cdf(bins[i], mean, var)  
p = p*200
freq = len(counts[counts==i])    
sum = sum + ((freq - p)**2)/p

因此,pfreq都是每个类别中的计数数,而不是相对频率。但我对此并不完全确定。

最后,dof的定义是number of bins - number of parameters fit (这里是2) -1。所以如果你有10个垃圾桶,dof = 10 - 2 - 1 = 7。在您的代码中,这是‘200-2= 198’。具有如此大的dof的X^2分布是非常平坦的,这意味着你需要非常大的X^2值来拒绝拟合。这就是你使用你的代码得到1的原因。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4010233

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档