我用GraphFrame创建了15k的图形对象。这些图表非常小。我只需要在每个图上应用最短路径和某些其他算法。我目前的实现是使用for循环遍历所有15k个图。
我想以某种方式构造一个RDD,它将每个图作为它的项目。在这种情况下,我可以将我需要应用的所有算法放在一个用户定义的函数中,并使用RDD的map函数在每个图上应用该函数。我想这会更有效率。
但问题是,我如何创建这样的RDD?
发布于 2017-09-05 18:22:28
为了加速您的过程,我建议您将图表放在list中并使用并行映射,例如:
from multiprocessing.pool import ThreadPool
def your_algos(p):
# your code
your_graphs = [list_of_graphs]
p = ThreadPool(number_of_workers)
results = p.map(your_algos, your_graphs) https://stackoverflow.com/questions/46052221
复制相似问题