我有一个很大的制表符分隔文件(10TB)。
我想将文件分成特定的列,并且希望使用我的24个内核中的每一个并行执行。
cut -f1,2,3 file > out有没有关于如何使用多核或并行来完成这项工作的想法?
我有一些想法,比如
cat file | parallel --round-robin --pipe "cut -f1 1,2,3" > out
cat file | parallel --round-robin --pipe --block 1000000k "cut -f1 1,2,3" > out发布于 2015-05-03 03:49:13
如果磁盘不是限制因素(但CPU是):
parallel -k --pipepart -a big.tsv --block 1g cut -f1 1,2,3 > outhttps://stackoverflow.com/questions/29924983
复制相似问题