文章/答案/技术大牛

发布

社区首页 >问答首页 >在统计上下文中正确处理链接数据的方法

问在统计上下文中正确处理链接数据的方法
EN

Stack Overflow用户

提问于 2020-08-27 08:59:08

回答 1查看 72关注 0票数 0

我有几个实验装置的数据点。实验进行了几百次。在每个实验中，测量了5个确定时刻的数据点(t_1 - t_5) .

在这个素描中，给出了这些测量的平均值和标准差。

我主要是通过表演获得这些结果的：

import numpy as np
datas = [data0, data1, data2, data3, data4]
datasMean=[]
datasStd=[]
for data in datas:
    datasMean.append(data.mean())
    datasStd.append(data.std())

通过一些统计分析，我想了解一下我的假设，即t_4的测量值确实低于其他时间--与实验中的其他数据点之间的关系。

是否有任何方法来证明这个假设是正确的？我担心的是，我的实验结果可能主要包括40 %的绿色数据点和40 %的蓝色数据点(或者其他一些更复杂的分布，甚至是更模糊的分布)，如在这张素描里所示。

如何验证我的假设:在大量的实验运行中，t_4的数据点在关系中总是比其他数据点在某个实验中要低。

numpy或scipy.stats (或其他包)的哪些功能适合解决这个问题？

python

statistics

回答 1

Stack Overflow用户

发布于 2020-08-27 11:20:32

这是否包含数据的一段内容？：

Experiment   t1 t2 t3 t4 t5                
experiment1  a  b  c  d  e
experiment2  a  b  c  d  e
experiment3  a  b  c  d  e
experiment4  a  b  c  d  e
experiment5  a  b  c  d  e

其中a，b，c，d和e是定义时间t1-t5时记录的数据点。你想要证实你的假设，对于某个实验，d总是低于a，b，c和e？

以下是工作解决方案:对数据部分的外观进行调整。

Experiment  t1  t2 t3 t4 t5               
experiment1  2  10  4  8  1
experiment2  3   3  2  5  2
experiment3  9   2  7  6  3
experiment4  4   1  6  4  5
experiment5  6  20  3  5  7

import pandas as pd
import numpy as np

#change column dtype to numeric
df[['t1', 't2','t3', 't4','t5']] = df[['t1', 't2','t3', 't4','t5']].apply(pd.to_numeric)

# new column holding minimum value occurring in every row
df['min_value'] = df.idxmin(axis=1)

结果：

Experiment  t1  t2  t3  t4  t5  min_value                   
experiment1 2   10  4   8   1   t1
experiment2 3   3   2   5   2   t3
experiment3 9   2   7   6   3   t2
experiment4 4   1   6   4   5   t2
experiment5 6   20  3   5   7   t3

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63612620

复制

相似问题

问在统计上下文中正确处理链接数据的方法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在统计上下文中正确处理链接数据的方法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在统计上下文中正确处理链接数据的方法
EN