假设我有一只熊猫DataFrame,名为purity_list,如下所示:
In[]: purity_list
Out[]:
48 49 50
2 0.1 0.9 0.3
A 0.2 -0.5 -0.6
4 0.3 0.8 0.9我想将它与另一个numpy数组进行比较,得到最大值+ve值,如果没有+ve值,我想要最低的-ve值。
因此,假设我将其与名为purities的numpy数组进行比较,如下所示:
In[]: purities
Out[]:
array([-0.2, 0.2, -0.8]) 我现在最接近的矢量化代码是:
purity_list = np.where(np.absolute(purity_list) > np.absolute(purities),
purity_list, purities)当我运行该代码时,我将得到以下内容:
In[]: purity_list
Out[]:
48 49 50
2 -0.2 0.9 -0.8
A -0.2 -0.5 -0.8
4 0.3 0.8 0.9我真正想要的是一些稍微不同的东西。我这里有一个非矢量化的逻辑:
for i, v1 in enumerate(purity_list):
for j, v2 in enumerate(v1):
if v2 > 0 or purities[j] > 0:
purity_list.iloc[i, j] = np.max(purity_list.iloc[i, j], purities[j])
else:
purity_list.iloc[i, j] = np.min(purity_list.iloc[i, j], purities[j])这样做的结果是:
In[]: purity_list
Out[]:
48 49 50
2 0.1 0.9 0.3
A 0.2 0.2 -0.8
4 0.3 0.8 0.9这是我正在寻找的结果。我重复这个语句超过100,000次,我的数组非常大,所以我需要一个矢量化版本。表演是这里的关键。
发布于 2017-06-16 00:47:14
在您的np.where版本中,逻辑是不完全正确的。考虑一下,当一个负值比一个正值要大的时候会发生什么。不过,工具的选择是合理的。因此,您所需要做的就是纠正这种情况,以便更好地匹配您的目标:
np.where((purity_list < 0) & (purities < 0),
np.where(purity_list < purities, purity_list, purities),
np.where(purity_list > purities, purity_list, purities))
Out[42]:
array([[ 0.1, 0.9, 0.3],
[ 0.2, 0.2, -0.8],
[ 0.3, 0.8, 0.9]])如果嵌套np.where觉得很傻,那么可以将逻辑组合起来:
np.where(((purity_list < 0) & (purities < 0) & (purity_list < purities))
|(((purity_list > 0) | (purities > 0)) & (purity_list > purities)),
purity_list, purities)
Out[43]:
array([[ 0.1, 0.9, 0.3],
[ 0.2, 0.2, -0.8],
[ 0.3, 0.8, 0.9]])虽然我发现第一条路更清晰。
https://stackoverflow.com/questions/44578733
复制相似问题