文章/答案/技术大牛

发布

社区首页 >问答首页 >计算一定数量列间大数据的成对关联

问计算一定数量列间大数据的成对关联
EN

Stack Overflow用户

提问于 2018-03-19 04:09:48

回答 1查看 934关注 0票数 1

我意识到过去已经有一些问题张贴在上面，所以这些问题与我在这里的问题相似。然而，他们并没有给我我想要的。

我有一个很大的dataframe，data，有314列。我想计算所有对之间的相关值--仅是我的数据的前30列。在此之后，我想报告前5对相关对，而不考虑符号，所以就相关系数的大小而言。我意识到我应该使用.corr()，因为一些数据单元格是空的，我们不想包含它们。

到目前为止我的情况是这样的。我还在努力呢。也不知道cc的类型，这就是为什么我没有报告前5个值的原因：

W = 30 # taking the first 30 columns
cc = np.zeros((1,W)) # pre-allocation for coefficients

for c in range(1:W) in data:
    tmp = data.corr(data(:,c0),data(:,c));
    cc(c) = tmp(1,2);

以下是数据框架的前15行和5列：

    Group  Age  Gender  Weight     Height
0       1   50       1     224  73.533514
1       1   59       0     180  62.625479
2       1   22       0     167  62.253894
3       1   48       0     113  61.476092
4       1   53       1     166  70.076665
5       1   48       1     210  71.384046
6       1   29       0     140  61.438960
7       1   44       1     181  74.992675
8       1   28       0      98  60.145635
9       1   42       1     187  71.588029
10      1   35       0     199  66.773644
11      0   54       1     228  76.971180
12      0   43       0     145  67.586941
13      1   50       0     190  67.229118
14      1   62       0     281  63.645601

correlation

python

pandas

numpy

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-03-19 04:55:53

好吧，这应该能行。第一部分给出了前30列的绝对相关矩阵，并从本质上消除了自相关性。下一部分通过找出绝对最大值，标记它，从相关矩阵中删除它，然后转移到下一个，来寻找五个整体最大相关性。max_list中的每个元素都将类似于带有abs的(0.8764779791676971, 'Gender', 'Height')。关联和提供这种关联的两列。

import pandas as pd
import numpy as np
corr = data.iloc[:,0:30].corr().replace(1, np.NaN).abs()

max_list = []
for i in range(0,5):
    max_val = max(corr.max())
    max_list.append((max_val, corr.columns[np.where(corr == max_val)[0][:]][0],
                    corr.columns[np.where(corr == max_val)[0][:]][1]))
    corr.replace(max_val, np.NaN, inplace=True)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49355681

复制

相似问题

问计算一定数量列间大数据的成对关联
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问计算一定数量列间大数据的成对关联EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问计算一定数量列间大数据的成对关联
EN