因此,我感兴趣的是将相当大的文件分割成5G间隔。我的目标是让所有分区少于5Gigs,并且尽可能少安装分区。
虽然我通常会使用带有大小限制的拆分,但我需要确保行保持不变(我不能按大小进行拆分)。
我一直在考虑使用文件大小和行数来确定每个文件可以拆分的行数。
例如:
File size = 11Gig
File line count = 900
File limit = 5Gig
ceiling(11/5) = 3
900/3 = 300
#Split the file by line limiting 300 each.虽然这通常是可行的,但由于行元素的性质,如果文件段中有一条非常大的行,那么文件大小仍可能在5G以上。
我正在考虑使用python (它处理数字要好得多,看起来不那么麻烦),但是我会放松对文件的操作速度。
我想知道有没有人知道在巴什有更好的选择?
提前谢谢你!
发布于 2015-08-20 21:30:23
从拆分手册页:
...
-C, --line-bytes=SIZE
put at most SIZE bytes of lines per output file
...对此选项的描述可能不是很明显,但它似乎涵盖了您所要求的内容:在达到大小字节之前,文件在最近可能的行中断处被拆分。
https://stackoverflow.com/questions/32127916
复制相似问题