我有48411 K的FASTA序列,每个1555个字符的长度(在一个文件中,总计78.3Mb),标题如下:
CYTC2889-12 HM036578 Homo sapiens但不幸的是,空格被用来分隔文本,而不是通常的“AC.26”(我认为)。
我想在页眉中添加“AC.26”,这样它们就变成
CYTC2889-12|HM036578|Homo sapiens我只需要替换前两个空格。在物种名称中不应该有管道。因此,最终的结果应该是“智人”,而不是“智人”。
我不确定如何继续,因为所有空格都将被一个管道所取代,而不是前面两个标识符(上面示例中的CYTC2889-12和HM036578 )中的空格,@CharlesDuffy指出了这一点。
这似乎是一个简单的任务(?),但我被空格作为分隔符使用(或者说我认为这就是使用空格的方式)抛之脑后。
有什么想法吗?
发布于 2022-09-19 23:54:06
OP还没有提供一组显示头文件和非头文件的示例数据,因此,基于其他与fasta相关的问题,我将猜测只有空格的行是头行。
设置:
$ cat bogus.fasta
>CYTC2889-12 HM036578 Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12 HM036578 Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12 HM036578 Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12 HM036578 Homo sapiens
CCATCATTGGCGTCTACA一个sed用管道(|)代替前两个空格的想法:
$ sed 's/ /|/1;s/ /|/1' bogus.fasta
>CYTC2889-12|HM036578|Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12|HM036578|Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12|HM036578|Homo sapiens
CCATCATTGGCGTCTACA
>CYTC2889-12|HM036578|Homo sapiens
CCATCATTGGCGTCTACA其中:
s/ /|/1说要用管道替换我们找到的第一个空格;这行修改后的行现在成为脚本的下半部分的输入,其中.s/ /|/1还表示用管道替换我们找到的第一个空间(在本例中,这实际上是原始文件中的第二个空格)如果结果看起来正确,OP想要修改原始文件,那么.假设使用GNU sed ..。可以添加-i标志,以强制使用更改更新输入文件,例如:
sed -i 's/ /|/1;s/ /|/1' bogus.fastahttps://stackoverflow.com/questions/73779107
复制相似问题