首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在bash中向FASTA文件头中添加“AC.26”

在bash中向FASTA文件头中添加“AC.26”
EN

Stack Overflow用户
提问于 2022-09-19 20:46:45
回答 1查看 62关注 0票数 -1

我有48411 K的FASTA序列,每个1555个字符的长度(在一个文件中,总计78.3Mb),标题如下:

代码语言:javascript
复制
CYTC2889-12 HM036578 Homo sapiens

但不幸的是,空格被用来分隔文本,而不是通常的“AC.26”(我认为)。

我想在页眉中添加“AC.26”,这样它们就变成

代码语言:javascript
复制
CYTC2889-12|HM036578|Homo sapiens

我只需要替换前两个空格。在物种名称中不应该有管道。因此,最终的结果应该是“智人”,而不是“智人”。

我不确定如何继续,因为所有空格都将被一个管道所取代,而不是前面两个标识符(上面示例中的CYTC2889-12和HM036578 )中的空格,@CharlesDuffy指出了这一点。

这似乎是一个简单的任务(?),但我被空格作为分隔符使用(或者说我认为这就是使用空格的方式)抛之脑后。

有什么想法吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-09-19 23:54:06

OP还没有提供一组显示头文件和非头文件的示例数据,因此,基于其他与fasta相关的问题,我将猜测只有空格的行是头行。

设置:

代码语言:javascript
复制
$ cat bogus.fasta
>CYTC2889-12 HM036578 Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12 HM036578 Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12 HM036578 Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12 HM036578 Homo sapiens
CCATCATTGGCGTCTACA

一个sed用管道(|)代替前两个空格的想法:

代码语言:javascript
复制
$ sed 's/ /|/1;s/ /|/1' bogus.fasta
>CYTC2889-12|HM036578|Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12|HM036578|Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12|HM036578|Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12|HM036578|Homo sapiens
CCATCATTGGCGTCTACA

其中:

  • 1 s/ /|/1说要用管道替换我们找到的第一个空格;这行修改后的行现在成为脚本的下半部分的输入,其中.
  • ,第2 s/ /|/1还表示用管道替换我们找到的第一个空间(在本例中,这实际上是原始文件中的第二个空格)

如果结果看起来正确,OP想要修改原始文件,那么.假设使用GNU sed ..。可以添加-i标志,以强制使用更改更新输入文件,例如:

代码语言:javascript
复制
sed -i 's/ /|/1;s/ /|/1' bogus.fasta
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73779107

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档