我计算了以下示例dataframe df1的相关性:
df1 = pd.DataFrame({'A':[1,2,3], 'B':[2,5,3], 'C':[5,2,1] })
df1.head() A B C
0 1 2 5
1 2 5 2
2 3 3 1相关数据如下所示:
df2=df1.corr()
df2 A B C
A 1.000000 0.327327 -0.960769
B 0.327327 1.000000 -0.576557
C -0.960769 -0.576557 1.000000如何测试一个值是否与我的dataframe/列中的其他值相关联?例如:我想知道A和C之间的高相关性是显著的,还是数据中的高相关性是正常的。
编辑:所需输出:
A B C
A p-value(A/A) p-value(A/B) p-value(A/C)
B p-value(B/A) p-value(B/B) p-value(B/C)
C p-value(C/A) p-value(C/B) p-value(C/C)我知道pearsonr()返回p-值,但是它没有考虑到df2的其他值:我希望将每种相关性(例如A和C之间的相关性)与df2的其他相关性进行比较。
发布于 2022-03-23 11:25:07
请试一下枕包。上面计算出来的相关性是pearson的相关性。对于can包,可以用‘p-value’来计算相同的值:
参考文献:https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.pearsonr.html
from scipy.stats import pearsonr
pearson_corr_BC = pearsonr(df1['B'],df1['C'])
print("pearson correlation:",pearson_corr_BC[0])
print("p-value:",pearson_corr_BC[1])要计算p值矩阵,可以尝试以下代码:
import numpy as np
row_index = df2.index
col_index = df2.columns
p_value_array = np.zeros(shape=(len(df1.columns),len(df1.columns)))
for i,a in enumerate(row_index):
for j,b in enumerate(col_index):
p_value_array[i,j] = pearsonr(df1[a],df1[b])[1]
pvalue_df = pd.DataFrame(p_value_array,index=row_index,columns=col_index)现在,要将两个特性的相关性值与其他相关值进行比较,例如,尝试如下:
df2[abs(df2.loc['B','C'])>df2.abs()]这将给出一个绝对相关值小于绝对相关值bw 'B‘和'C’的矩阵。同样,也可以比较意义。
https://stackoverflow.com/questions/71586070
复制相似问题