(注意:标记应该是tophat2和bowtie2,但我没有创建新标记的要点)
问候:我正在使用Tophat2 (命令行)来分析RNA-seq数据,我遇到了一些错误。
这里是呼叫:
tophat2 -o tophat2_results/ -G ref_data/BA000007.2.gtf --transcriptome-index=transcriptome_data/RNA_LBG01b_241_filteredQ indices/BA000007.2 data_files/RNA_LBG01b_241_filteredQ.fastq这里是错误:
[2015-12-29 12:58:33] Checking for Bowtie
Bowtie version: 2.2.4.0
[2015-12-29 12:58:33] Checking for Bowtie index files (genome)..
[2015-12-29 12:58:33] Checking for reference FASTA file
[2015-12-29 12:58:33] Generating SAM header for indices/BA000007.2
[2015-12-29 12:58:33] Reading known junctions from GTF file
Warning: TopHat did not find any junctions in GTF file
[2015-12-29 12:58:33] Preparing reads
left reads: min. length=12, max. length=342, 202732 kept reads (1315 discarded)
Warning: short reads (<20bp) will make TopHat quite slow and take large amount of memory because they are likely to be mapped in too many places
[2015-12-29 12:58:39] Building transcriptome data files transcriptome_data/RNA_LBG01b_241_filteredQ
[2015-12-29 12:58:40] Building Bowtie index from RNA_LBG01b_241_filteredQ.fa
[FAILED]
Error: Couldn't build bowtie index with err = 1版本信息: TopHat v2.1.0 Bowtie2版本2.2.4 Python2.7.10 ::Anaconda2.4.0(64位)
系统信息: CentOS第6.7版
我是如何来到这里的,我尝试了什么:
我使用大肠杆菌(登录号: BA000007.2)作为我的参考基因组,在这里可以找到:http://www.ncbi.nlm.nih.gov/nuccore/BA000007.2
我从酒井/获得了我的GTF文件
我使用bowtie2-build (在tophat2调用之前)创建了我的索引。
bowtie2-build -f ref_data/BA000007.2.fasta indices/BA000007.2我知道,我收到的错误与出现在*.gtf文件第一列中的不同名称和引用fasta文件的名称有关。如果我正确地理解了这一点,第一栏中的每一个条目都应该是BA000007.2,其中第一栏中的大多数名字都是“染色体”。为了解决这个问题,我做了以下工作:
awk '{FS=OFS="\t"}{print "BA000007.2", $2, $3, $4, $5, $6, $7, $8, $9}' pathToGTF/BA000007.2_ensemble.gtf > pathToGTF/BA000007.2.gtf #请注意在集成gtf文件开始时注释的构建信息(例如,#!基因组构建ASM80120v1)将产生来自awk命令的不良输出已经得到了解决。
我还将fasta文件的终止从*.fasta更改为*.fa
问题:
gtf文件中确实有负数,但genbank文件中没有(vim中的快速搜索)。这可能是错误的根源吗?我注释掉了具体的行并将它们从文件中删除--这两种方法仍然会导致错误。
我被困在这几天,所以任何帮助都是非常感谢的。
发布于 2015-12-31 16:55:30
我找到了问题的根源。它是引用fasta文件中的标题。最初的标题是:
>gi|47118301|dbj|BA000007.2| Escherichia coli O157:H7 str. Sakai DNA, complete genome何去何从
>BA000007So...if fasta文件被称为abc123 123.fa,那么fasta文件中的头必须是>abc123 123。gtf文件中的第一列也必须是abc123。
请注意,在所有调用中,我都将基从BA000007.2更改为BA000007,并将所有文件重命名为名称中没有.2的文件。它可能仍然适用于.2,但我没有测试它(“basename是任何索引文件的名称,直到但不包括第一个句点”)。顶帽手册)(谢谢)。最后,我将fasta文件从*.fasta重命名为*.fa。
https://stackoverflow.com/questions/34517778
复制相似问题