使用2个样本的Kolmogorov Smirnov检验,我得到的p值为0.0。
>>>scipy.stats.ks_2samp(dataset1, dataset2)
(0.65296076312083573, 0.0)看一下这两个数据集的直方图,我非常确信它们代表了两个不同的数据集。但是,真的吗,p= 0.0?这似乎没有什么意义。它不应该是一个非常小但为正数的数字吗?
我知道返回值是numpy.float64类型的。这跟这事有什么关系吗?
编辑:此处的数据:https://www.dropbox.com/s/jpixhz0pcybyh1t/data4stack.csv
scipy.version.full_version
'0.13.2'发布于 2013-12-12 05:53:06
是的,概率是非常小的,:
>>> from pprint import pprint
>>> pprint ([(i, scipy.stats.ks_2samp(dataset1, dataset2[:i])[1])
... for i in range(200,len(dataset2),200)])
[(200, 3.1281733251275881e-63),
(400, 3.5780609056448825e-157),
(600, 9.2884803664366062e-225),
(800, 7.1429666685167604e-293),
(1000, 0.0),
(1200, 0.0),
(1400, 0.0),
(1600, 0.0),
(1800, 0.0),
(2000, 0.0),
(2200, 0.0),
(2400, 0.0)]https://stackoverflow.com/questions/20530138
复制相似问题