我有数以万计的gzipped文本文件,每个文件都已经在内部进行了排序。
我编写了一个脚本来解压缩它们(创建一个副本),然后使用sort -m合并它们。
这一切都很好,但在努力提高性能时,我注意到解压缩操作约占总运行时间的16-20%。
基本上,合并操作必须反复扫描整批文本文件,每次将16个文件合并为1个。通常情况下,这将导致对我所拥有的数据进行4到5次全面扫描.解压缩本质上增加了一个额外的扫描通过它的所有。
通过50-100 GB的数据保存5-6个扫描中的一个是一种很大的节省.
因此,我开始怀疑是否可以将gunzip的输出直接输入到sort (或其他一些工具)中,并基本上将解压缩轮与第一轮合并结合起来。输出将不会被压缩。
有没有人知道这是否能办到?理想的情况下,标准工具,但我也开放给第三方工具,如果它适合的话。
发布于 2013-06-11 16:49:52
您可以-程序zcat (或gzip -cd)将解压缩数据写入标准输出。在那里,您可以使用bash的进程替换。1.gz是数字1到3;a.gz是字母a到c;z.gz是数字4和字母d:
$ sort -m <(zcat 1.gz) <(zcat a.gz) <(zcat z.gz)
1
2
3
4
a
b
c
d希望您的数据更有趣。
https://unix.stackexchange.com/questions/79034
复制相似问题