我试图使用bwa mem对齐序列读取与hg19引用,但我的序列都有一个UMI (唯一的分子标识符)。我用过像这样的聚醚:
umitools trim --end 5 input.fastq NNNNNN > output.fastq然后,将我的UMI序列正确地追加到output.fastq文件中的名称行中,但是当使用bwa mem对齐时,我得到以下错误:
paired reads have different names: "someTitle:UMI_ATGCTC", "someTitle:UMI_CATTAT"有没有办法同时使用bwa mem和umitools,这样就不会发生这种情况了吗?
发布于 2015-02-21 20:20:52
所以这并不能完全回答这个问题,但是越来越接近了。umitools并不适用于成对的尾读。我所做的就是修剪我的UMI序列(读取的两边各有6个碱基),然后使用下面的外部代码对齐:
sed -i~ '2~4s/^.\{6\}//' fileaddress 2~4的意思是“从第2行开始,重复每4行”。
s的意思是替换,^匹配行开始,.匹配任何字符,\{6\}指定长度(“量词”)。替换字符串为空(//)。
-i~将文件替换到位,留下附加到文件名后的~备份。
https://stackoverflow.com/questions/28464986
复制相似问题