我的问题我想解决
我有11个月的业绩数据:
Month Branded Non-Branded Shopping Grand Total
0 2/1/2015 1330 334 161 1825
1 3/1/2015 1344 293 197 1834
2 4/1/2015 899 181 190 1270
3 5/1/2015 939 208 154 1301
4 6/1/2015 1119 238 179 1536
5 7/1/2015 859 238 170 1267
6 8/1/2015 996 340 183 1519
7 9/1/2015 1138 381 172 1691
8 10/1/2015 1093 395 176 1664
9 11/1/2015 1491 426 199 2116
10 12/1/2015 1539 530 156 2225假设是2016年2月1日,我在问:“一月份的结果与过去11个月的结果有统计学上的不同吗?”
Month Branded Non-Branded Shopping Grand Total
11 1/1/2016 1064 408 106 1578我看到一个博客.
我偶然看到了伊恩加拉格尔的博客,我会在这里复制(以防博客崩溃)。
1-样本t检验 当我们想要将一个样本平均数和一个总体平均值(我们已经知道的)进行比较时,使用了1样本t检验。英国人的平均身高是175.3厘米。一项调查记录了10名英国男性的身高,我们想知道样本的平均值是否与人口平均数不同。
# 1-sample t-test
from scipy import stats
one_sample_data = [177.3, 182.7, 169.6, 176.3, 180.3, 179.4, 178.5, 177.2, 181.8, 176.5]
one_sample = stats.ttest_1samp(one_sample_data, 175.3)
print "The t-statistic is %.3f and the p-value is %.3f." % one_sample结果:
The t-statistic is 2.296 and the p-value is 0.047.终于回答了我的问题.
在艾恩加拉格尔的例子中,他知道总体的平均值,并正在比较一个样本(one_sample_data)。在我的例子中,我想看看1/1/2016在统计上是否与前11个月不同。因此,在我的例子中,前11个月是一个数组(而不是单个总体平均值),我的示例是一个数据点(而不是数组).所以它有点向后。
问题
如果我关注的是Shopping列数据:
即使我的示例(第一个参数)是以前的结果列表,scipy.stats.1样本([161,197,190,154,179,170,183,172,176,199,156], 106)也会产生一个有效的结果吗?我正在将它与一个popmean进行比较--它不是总体平均值,而是一个示例。
如果这不是正确的统计函数,对于这个假设检验情况有什么建议吗?
发布于 2020-05-23 12:36:52
如果您只对"Shopping"列感兴趣,请尝试创建一个.xlsx或.csv文件,其中只包含来自"Shopping"列的数据。
通过这种方式,您可以导入这些数据,并利用熊猫对每个列执行相同的T测试。
import pandas as pd
from scipy import stats
data = pd.read_excel("datafile.xlxs")
one_sample_data = data["Shopping"]
one_sample = stats.ttest_1samp(one_sample_data, 175.3)https://stackoverflow.com/questions/35788140
复制相似问题