文章/答案/技术大牛

发布

社区首页 >问答首页 >在bash中向FASTA文件头中添加“AC.26”

问在bash中向FASTA文件头中添加“AC.26”
EN

Stack Overflow用户

提问于 2022-09-19 20:46:45

回答 1查看 62关注 0票数 -1

我有48411 K的FASTA序列，每个1555个字符的长度(在一个文件中，总计78.3Mb)，标题如下：

CYTC2889-12 HM036578 Homo sapiens

但不幸的是，空格被用来分隔文本，而不是通常的“AC.26”(我认为)。

我想在页眉中添加“AC.26”，这样它们就变成

CYTC2889-12|HM036578|Homo sapiens

我只需要替换前两个空格。在物种名称中不应该有管道。因此，最终的结果应该是“智人”，而不是“智人”。

我不确定如何继续，因为所有空格都将被一个管道所取代，而不是前面两个标识符(上面示例中的CYTC2889-12和HM036578 )中的空格，@CharlesDuffy指出了这一点。

这似乎是一个简单的任务(?)，但我被空格作为分隔符使用(或者说我认为这就是使用空格的方式)抛之脑后。

有什么想法吗？

fasta

bash

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-09-19 23:54:06

OP还没有提供一组显示头文件和非头文件的示例数据，因此，基于其他与fasta相关的问题，我将猜测只有空格的行是头行。

设置：

$ cat bogus.fasta
>CYTC2889-12 HM036578 Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12 HM036578 Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12 HM036578 Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12 HM036578 Homo sapiens
CCATCATTGGCGTCTACA

一个sed用管道(|)代替前两个空格的想法：

$ sed 's/ /|/1;s/ /|/1' bogus.fasta
>CYTC2889-12|HM036578|Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12|HM036578|Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12|HM036578|Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12|HM036578|Homo sapiens
CCATCATTGGCGTCTACA

其中：

1 s/ /|/1说要用管道替换我们找到的第一个空格；这行修改后的行现在成为脚本的下半部分的输入，其中.
，第2 s/ /|/1还表示用管道替换我们找到的第一个空间(在本例中，这实际上是原始文件中的第二个空格)

如果结果看起来正确，OP想要修改原始文件，那么.假设使用GNU sed ..。可以添加-i标志，以强制使用更改更新输入文件，例如：

sed -i 's/ /|/1;s/ /|/1' bogus.fasta

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/73779107

复制

相似问题

问在bash中向FASTA文件头中添加“AC.26”
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在bash中向FASTA文件头中添加“AC.26”EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在bash中向FASTA文件头中添加“AC.26”
EN