文章/答案/技术大牛

发布

社区首页 >问答首页 >我可以在一个操作中解压缩和合并排序的文本文件吗？

问我可以在一个操作中解压缩和合并排序的文本文件吗？
EN

Unix & Linux用户

提问于 2013-06-11 16:02:23

回答 1查看 2.6K关注 0票数 4

我有数以万计的gzipped文本文件，每个文件都已经在内部进行了排序。

我编写了一个脚本来解压缩它们(创建一个副本)，然后使用sort -m合并它们。

这一切都很好，但在努力提高性能时，我注意到解压缩操作约占总运行时间的16-20%。

基本上，合并操作必须反复扫描整批文本文件，每次将16个文件合并为1个。通常情况下，这将导致对我所拥有的数据进行4到5次全面扫描.解压缩本质上增加了一个额外的扫描通过它的所有。

通过50-100 GB的数据保存5-6个扫描中的一个是一种很大的节省.

因此，我开始怀疑是否可以将gunzip的输出直接输入到sort (或其他一些工具)中，并基本上将解压缩轮与第一轮合并结合起来。输出将不会被压缩。

有没有人知道这是否能办到？理想的情况下，标准工具，但我也开放给第三方工具，如果它适合的话。

linux

sort

回答 1

Unix & Linux用户

回答已采纳

发布于 2013-06-11 16:49:52

您可以-程序zcat (或gzip -cd)将解压缩数据写入标准输出。在那里，您可以使用bash的进程替换。1.gz是数字1到3；a.gz是字母a到c；z.gz是数字4和字母d：

$ sort -m <(zcat 1.gz) <(zcat a.gz) <(zcat z.gz)
1
2
3
4
a
b
c
d

希望您的数据更有趣。

票数 5

页面原文内容由Unix & Linux提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://unix.stackexchange.com/questions/79034

复制

相似问题

问我可以在一个操作中解压缩和合并排序的文本文件吗？
EN

回答 1

Unix & Linux用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我可以在一个操作中解压缩和合并排序的文本文件吗？EN

回答 1

Unix & Linux用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我可以在一个操作中解压缩和合并排序的文本文件吗？
EN