我正在尝试使用Dataframe来聚合一个大型数据集。
我的dd.df看起来是这样的:
seq kegg evalue
AAAAAAAAPAADAKK K02897 0.001
AAAAAAAAPAADAKK K02897 0.007
AAAAAAAAPAPAPVAEEGEPIEHLPEITFDDFSKVELRVAR K01874 0.1我试着用群比:
我尝试使用以下方法使用groupby().agg():
df.groupby(['seq','kegg']).agg({'kegg':['count'],
'evalue':['prod']}, split_out=10)但是,我得到了以下错误:
ValueError: unknown aggregate prod从文档中可以看出,似乎存在一个prod聚合,但显然这是行不通的。
我对熊猫和达斯克都是新手,所以我相信这是一个简单的解决办法,我只是没有得到。
发布于 2019-05-18 15:22:44
正如上面的注释中所讨论的,通过安装较新版本的Dask解决了这一问题。
https://stackoverflow.com/questions/55955728
复制相似问题