我正在处理使用:cat file1.fasta.gz file2.fasta.gz > newfile.fasta.gz连接的大型数据集。
然后,我使用:gunzip newfile.fasta.gz解压缩新文件,以便在一些生物信息学软件中使用它。枪拉链花了很长时间,我离开电脑后再回来。
我担心这个过程可能在某个时候失败了,留下了部分文件。有没有办法确定newfile.fasta包含newfile.fasta.gz的全部解压缩内容?
inb4:“不要离开你的电脑”
发布于 2015-09-07 20:59:43
应该没问题的。如果您担心,那么您只需检查文件大小: newfile.fasta.gz应该是file1.fasta.gz + file2.fasta.gz的大小。
因为看起来您已经解压缩了新文件,所以可以双倍检查每个fasta文件中的序列条目的数量。
$ gunzip -c file1.fasta.gz | grep -c '^>'
$ gunzip -c file2.fasta.gz | grep -c '^>'
$ grep -c '^>' newfile.fasta或者你可以用"grep -c‘^>“代替wc。
https://stackoverflow.com/questions/32031101
复制相似问题