首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从文件中收集特定的基因组数据,并以相同的标题收集

从文件中收集特定的基因组数据,并以相同的标题收集
EN

Unix & Linux用户
提问于 2018-10-09 14:54:30
回答 1查看 414关注 0票数 0

我在一个文件里有基因组数据,genomes-seq.txt。序列的标题以>开头,然后是基因组名称:

代码语言:javascript
复制
>genome.1
atcg
atcg
atcggtc

>genome.2
atct
tgcgtgctt
attttt

>genome.
sdkf
sdf;ksdf
sdlfkjdslc
edsfsfv

>genome.3
as;ldkhaskjd
asdkljdsl
asdkljasdk;l

>genome.4
ekjfhdhsa
dsfkjskajd
asdknasd


>genome.1
iruuwi
sdkljbh
sdfljnsdl

>genome.234
efijhusidh
siduhygfhuji

>genome.1
ljhdcj
sdljhsdil
fweusfhygc

我想在一个文件中收集基因组1的类似数据,如下所示:

代码语言:javascript
复制
>genome.1
atcg
atcggtc

iruuwi
sdkljbh
sdfljnsdl
ljhdcj
sdljhsdil
fweusfhygc

但每次我用sed做这件事,我都会得到:

代码语言:javascript
复制
>genome.1
atcg
atcg
atcggtc

>genome.1
iruuwi
sdkljbh
sdfljnsdl

>genome.1
ljhdcj
sdljhsdil
fweusfhygc

那就是多重genome.1s,我怎么才能做到正确呢?所以对于大数据集,我不需要删除所有的重复?

EN

回答 1

Unix & Linux用户

发布于 2018-10-09 15:35:42

用perl

代码语言:javascript
复制
perl -00 -ne 'if (/^>genome\.1\n/) {s/// if $. > 1; print}' file
票数 0
EN
页面原文内容由Unix & Linux提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://unix.stackexchange.com/questions/474268

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档