我有几个实验装置的数据点。实验进行了几百次。在每个实验中,测量了5个确定时刻的数据点(t_1 - t_5) .
在这个素描中,给出了这些测量的平均值和标准差。
我主要是通过表演获得这些结果的:
import numpy as np
datas = [data0, data1, data2, data3, data4]
datasMean=[]
datasStd=[]
for data in datas:
datasMean.append(data.mean())
datasStd.append(data.std())通过一些统计分析,我想了解一下我的假设,即t_4的测量值确实低于其他时间--与实验中的其他数据点之间的关系。
是否有任何方法来证明这个假设是正确的?我担心的是,我的实验结果可能主要包括40 %的绿色数据点和40 %的蓝色数据点(或者其他一些更复杂的分布,甚至是更模糊的分布),如在这张素描里所示。
如何验证我的假设:在大量的实验运行中,t_4的数据点在关系中总是比其他数据点在某个实验中要低。
numpy或scipy.stats (或其他包)的哪些功能适合解决这个问题?
发布于 2020-08-27 11:20:32
这是否包含数据的一段内容?:
Experiment t1 t2 t3 t4 t5
experiment1 a b c d e
experiment2 a b c d e
experiment3 a b c d e
experiment4 a b c d e
experiment5 a b c d e其中a,b,c,d和e是定义时间t1-t5时记录的数据点。你想要证实你的假设,对于某个实验,d总是低于a,b,c和e?
以下是工作解决方案:对数据部分的外观进行调整。
Experiment t1 t2 t3 t4 t5
experiment1 2 10 4 8 1
experiment2 3 3 2 5 2
experiment3 9 2 7 6 3
experiment4 4 1 6 4 5
experiment5 6 20 3 5 7import pandas as pd
import numpy as np
#change column dtype to numeric
df[['t1', 't2','t3', 't4','t5']] = df[['t1', 't2','t3', 't4','t5']].apply(pd.to_numeric)
# new column holding minimum value occurring in every row
df['min_value'] = df.idxmin(axis=1)结果:
Experiment t1 t2 t3 t4 t5 min_value
experiment1 2 10 4 8 1 t1
experiment2 3 3 2 5 2 t3
experiment3 9 2 7 6 3 t2
experiment4 4 1 6 4 5 t2
experiment5 6 20 3 5 7 t3https://stackoverflow.com/questions/63612620
复制相似问题