我有一个包含2,000,000行的文件。我正在为每一行运行一些命令。我试图使用GNU-parallel和swift实现一些并行性,就像讨论的这里一样。然而,我从我的一个朋友那里得到了一个有趣的想法。
他建议在服务器中生成多个进程,因为服务器非常强大。我在想,如果我对每一行文件使用一个索引,我可以基于totallines mod number_of_processes生成多个进程。
例如,如果line_numbers为1,11和21,它将被发送到第一个进程,如果行号为2,12和22,则将发送到第二个进程,依此类推。
为了实现上述目标,我在shell脚本中经历了后台过程。在大多数教程/链接中,它们都会在命令中附加一个&,并告诉计算机将生成一个后台进程。我觉得很难理解这个概念。
发布于 2014-02-14 09:11:15
你的想法与GNU平行线的--管--循环--有什么不同?
seq 100 | parallel --pipe --round-robin -j10 -N 1 'echo Start;cat'对GNU并行而言,逐行执行该操作有点效率低下。逐块地这样做是更有效的:
seq 1000000 | parallel --pipe --round-robin -j10 'echo Start;cat'调整-阻塞以适应您的需要。
https://unix.stackexchange.com/questions/115136
复制相似问题