我在一个文件里有基因组数据,genomes-seq.txt。序列的标题以>开头,然后是基因组名称:
>genome.1
atcg
atcg
atcggtc
>genome.2
atct
tgcgtgctt
attttt
>genome.
sdkf
sdf;ksdf
sdlfkjdslc
edsfsfv
>genome.3
as;ldkhaskjd
asdkljdsl
asdkljasdk;l
>genome.4
ekjfhdhsa
dsfkjskajd
asdknasd
>genome.1
iruuwi
sdkljbh
sdfljnsdl
>genome.234
efijhusidh
siduhygfhuji
>genome.1
ljhdcj
sdljhsdil
fweusfhygc我想在一个文件中收集基因组1的类似数据,如下所示:
>genome.1
atcg
atcggtc
iruuwi
sdkljbh
sdfljnsdl
ljhdcj
sdljhsdil
fweusfhygc但每次我用sed做这件事,我都会得到:
>genome.1
atcg
atcg
atcggtc
>genome.1
iruuwi
sdkljbh
sdfljnsdl
>genome.1
ljhdcj
sdljhsdil
fweusfhygc那就是多重genome.1s,我怎么才能做到正确呢?所以对于大数据集,我不需要删除所有的重复?
发布于 2018-10-09 15:35:42
用perl
perl -00 -ne 'if (/^>genome\.1\n/) {s/// if $. > 1; print}' filehttps://unix.stackexchange.com/questions/474268
复制相似问题