首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我可以在一个操作中解压缩和合并排序的文本文件吗?

我可以在一个操作中解压缩和合并排序的文本文件吗?
EN

Unix & Linux用户
提问于 2013-06-11 16:02:23
回答 1查看 2.6K关注 0票数 4

我有数以万计的gzipped文本文件,每个文件都已经在内部进行了排序。

我编写了一个脚本来解压缩它们(创建一个副本),然后使用sort -m合并它们。

这一切都很好,但在努力提高性能时,我注意到解压缩操作约占总运行时间的16-20%。

基本上,合并操作必须反复扫描整批文本文件,每次将16个文件合并为1个。通常情况下,这将导致对我所拥有的数据进行4到5次全面扫描.解压缩本质上增加了一个额外的扫描通过它的所有。

通过50-100 GB的数据保存5-6个扫描中的一个是一种很大的节省.

因此,我开始怀疑是否可以将gunzip的输出直接输入到sort (或其他一些工具)中,并基本上将解压缩轮与第一轮合并结合起来。输出将不会被压缩。

有没有人知道这是否能办到?理想的情况下,标准工具,但我也开放给第三方工具,如果它适合的话。

EN

回答 1

Unix & Linux用户

回答已采纳

发布于 2013-06-11 16:49:52

您可以-程序zcat (或gzip -cd)将解压缩数据写入标准输出。在那里,您可以使用bash的进程替换。1.gz是数字1到3;a.gz是字母a到c;z.gz是数字4和字母d:

代码语言:javascript
复制
$ sort -m <(zcat 1.gz) <(zcat a.gz) <(zcat z.gz)
1
2
3
4
a
b
c
d

希望您的数据更有趣。

票数 5
EN
页面原文内容由Unix & Linux提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://unix.stackexchange.com/questions/79034

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档