文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在多个dataframe lambda函数上实现dask映射分区？

问如何在多个dataframe lambda函数上实现dask映射分区？
EN

Stack Overflow用户

提问于 2018-05-19 03:34:39

回答 1查看 452关注 0票数 0

我已经使用pandas实现了两个数据帧之间的模糊字符串匹配算法。我的问题是如何将其转换为使用多核的dask操作？我的程序在纯python上运行大约3-4天，我想并行操作以优化时间成本。我已经使用多处理包通过以下代码提取了内核数量：

numCores = multiprocessing.cpu_count()

fields = ['id','phase','new']
emb = pd.read_csv('my_csv.csv', skipinitialspace=True, usecols=fields)

然后，我必须根据每个字符串关联的数值将数据帧emb细分为两个数据帧(emb1，emb2)。与在中一样，我正在匹配一个数据帧，其中所有元素的值都为3，与其在另一个数据帧中的相应值2匹配，用于纯pandas操作的匹配string.The代码如下所示。

emb1 = emb[emb.phase.isin([3.0])]
emb1.set_index('id',inplace=True)

emb2 = emb[emb.phase.isin([2.0,1.5])]
emb2.set_index('id',inplace=True)

def fuzzy_match(x, choices, scorer, cutoff):
return process.extractOne(x, choices=choices, scorer=scorer, score_cutoff=cutoff)

FuzzyWuzzyResults = pd.DataFrame(emb1.sort_index().loc[:,'strings'].apply(fuzzy_match, args = (emb2.loc[:,'strings'],fuzz.ratio,90)))

我尝试使用下面的代码来实现dask：

emb1 = dd.from_pandas(emb1, npartitions=numCores)
emb2 = dd.from_pandas(emb2, npartitions=numCores)

但是对两个数据帧运行lambda函数会让我感到困惑。有什么想法吗？

python

pandas

dataframe

multiprocessing

dask

回答 1

Stack Overflow用户

发布于 2018-05-19 06:52:16

因此，我只修复了我的代码，删除了数据帧的手动分区，并改用groupby。

代码如下：

for i in [2.0,1.5]:
    FuzzyWuzzyResults = emb.map_partitions(lambda df: df.groupby('phase').get_group(3.0)['drugs'].apply(fuzzy_match, args=(df.groupby('phase').get_group(i)['drugs'],fuzz.ratio,90)), meta=('results')).compute()

不确定它是否准确，但至少它正在运行，而且在所有CPU核心上也是如此。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50418159

复制

相似问题

问如何在多个dataframe lambda函数上实现dask映射分区？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在多个dataframe lambda函数上实现dask映射分区？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在多个dataframe lambda函数上实现dask映射分区？
EN