首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Bowtie索引失败(tophat2,bowtie2)

Bowtie索引失败(tophat2,bowtie2)
EN

Stack Overflow用户
提问于 2015-12-29 19:32:13
回答 1查看 2.3K关注 0票数 1

(注意:标记应该是tophat2和bowtie2,但我没有创建新标记的要点)

问候:我正在使用Tophat2 (命令行)来分析RNA-seq数据,我遇到了一些错误。

这里是呼叫:

代码语言:javascript
复制
tophat2 -o tophat2_results/ -G ref_data/BA000007.2.gtf --transcriptome-index=transcriptome_data/RNA_LBG01b_241_filteredQ indices/BA000007.2 data_files/RNA_LBG01b_241_filteredQ.fastq

这里是错误:

代码语言:javascript
复制
[2015-12-29 12:58:33] Checking for Bowtie
          Bowtie version:     2.2.4.0
[2015-12-29 12:58:33] Checking for Bowtie index files (genome)..
[2015-12-29 12:58:33] Checking for reference FASTA file
[2015-12-29 12:58:33] Generating SAM header for indices/BA000007.2
[2015-12-29 12:58:33] Reading known junctions from GTF file
    Warning: TopHat did not find any junctions in GTF file
[2015-12-29 12:58:33] Preparing reads
     left reads: min. length=12, max. length=342, 202732 kept reads (1315 discarded)
Warning: short reads (<20bp) will make TopHat quite slow and take large amount of memory because they are likely to be mapped in too many places
[2015-12-29 12:58:39] Building transcriptome data files transcriptome_data/RNA_LBG01b_241_filteredQ
[2015-12-29 12:58:40] Building Bowtie index from RNA_LBG01b_241_filteredQ.fa
    [FAILED]
Error: Couldn't build bowtie index with err = 1

版本信息: TopHat v2.1.0 Bowtie2版本2.2.4 Python2.7.10 ::Anaconda2.4.0(64位)

系统信息: CentOS第6.7版

我是如何来到这里的,我尝试了什么:

我使用大肠杆菌(登录号: BA000007.2)作为我的参考基因组,在这里可以找到:http://www.ncbi.nlm.nih.gov/nuccore/BA000007.2

我从酒井/获得了我的GTF文件

我使用bowtie2-build (在tophat2调用之前)创建了我的索引。

代码语言:javascript
复制
bowtie2-build -f ref_data/BA000007.2.fasta indices/BA000007.2

我知道,我收到的错误与出现在*.gtf文件第一列中的不同名称和引用fasta文件的名称有关。如果我正确地理解了这一点,第一栏中的每一个条目都应该是BA000007.2,其中第一栏中的大多数名字都是“染色体”。为了解决这个问题,我做了以下工作:

代码语言:javascript
复制
awk '{FS=OFS="\t"}{print "BA000007.2", $2, $3, $4, $5, $6, $7, $8, $9}' pathToGTF/BA000007.2_ensemble.gtf > pathToGTF/BA000007.2.gtf 

#请注意在集成gtf文件开始时注释的构建信息(例如,#!基因组构建ASM80120v1)将产生来自awk命令的不良输出已经得到了解决。

我还将fasta文件的终止从*.fasta更改为*.fa

问题:

  1. 我是否正确地将kibosh放在gtf文件的第一列与fasta文件的名称(BA000007.2,BA000007.2.fa)之间的不同命名上引起的问题?
  2. 当我仔细阅读日志目录中的输出时,会出现几个错误(g2f.err &ftf_juncs.log中类似的错误),行的开头是: 警告:在行处的启动坐标无效: BA000007.2 ena基因-194 2502。+。gene_id "BAA31757";gene_version "1";gene_name "tagA";gene_source "ena";gene_biotype "protein_coding";

gtf文件中确实有负数,但genbank文件中没有(vim中的快速搜索)。这可能是错误的根源吗?我注释掉了具体的行并将它们从文件中删除--这两种方法仍然会导致错误。

  1. 是否有任何容易发现的错误可能导致“无法建立带有错误r=1的蝶形索引”错误?

我被困在这几天,所以任何帮助都是非常感谢的。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-12-31 16:55:30

我找到了问题的根源。它是引用fasta文件中的标题。最初的标题是:

代码语言:javascript
复制
>gi|47118301|dbj|BA000007.2| Escherichia coli O157:H7 str. Sakai DNA, complete genome

何去何从

代码语言:javascript
复制
>BA000007

So...if fasta文件被称为abc123 123.fa,那么fasta文件中的头必须是>abc123 123。gtf文件中的第一列也必须是abc123。

请注意,在所有调用中,我都将基从BA000007.2更改为BA000007,并将所有文件重命名为名称中没有.2的文件。它可能仍然适用于.2,但我没有测试它(“basename是任何索引文件的名称,直到但不包括第一个句点”)。顶帽手册)(谢谢)。最后,我将fasta文件从*.fasta重命名为*.fa。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34517778

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档