我有一个熊猫数据框架,它由不同的子组组成。
df = pd.DataFrame({
'id':[1, 2, 3, 4, 5, 6, 7, 8],
'group':['a', 'a', 'a', 'a', 'b', 'b', 'b', 'b'],
'value':[.01, .4, .2, .3, .11, .21, .4, .01]
})我想在它的组中找到每个id的级别,比如说,值越低越好。在上面的例子中,在A组中,Id 1的秩为1,ID2的秩为4,在B组中,Id 5的秩为2,ID8的秩为1,依此类推。
现在,我根据以下几个方面来评估职级:
df.sort('value', ascending = True, inplace=True)def ranker(df):
df['rank'] = np.arange(len(df)) + 1
return dfdf = df.groupby(['group']).apply(ranker)这个过程可以工作,但是当我在数以百万行的数据上运行它时,它是非常慢的。有没有人想过如何做一个更快的牧羊人功能。
发布于 2014-11-03 19:13:58
等级化了,所以应该非常快。您可以传递与df.rank() here是rank的文档相同的选项。正如您所看到的,可以通过method参数以五种不同的方式中的一种来实现领带中断。
您也可能只想要这个组的.cumcount()。
In [12]: df.groupby('group')['value'].rank(ascending=False)
Out[12]:
0 4
1 1
2 3
3 2
4 3
5 2
6 1
7 4
dtype: float64发布于 2016-04-29 13:30:22
使用一个大的DataFrame (1300万行),这个方法和groupby一起使用了我的8GB内存,而且花费了很长的时间。我在记忆中找到了一个不那么贪婪的解决办法,我把它放在这里,以防万一:
df.sort_values('value')
tmp = df.groupby('group').size()
rank = tmp.map(range)
rank =[item for sublist in rank for item in sublist]
df['rank'] = rankhttps://stackoverflow.com/questions/26720916
复制相似问题