我需要解析一个初步的GenBank平面文件。这个序列还没有发布,所以我不能通过注册来查找它并下载FASTA文件。我刚接触生物信息学,有人能告诉我在哪里可以找到BioPerl或BioPython脚本来自己做这件事吗?谢谢!
发布于 2011-06-14 18:38:46
您需要Bio::SeqIO模块来读取或写出生物信息学数据。SeqIO HOWTO应该会告诉你你需要知道的一切,但是here's a small read-a-GenBank-file script in Perl会帮你入门!
发布于 2013-11-24 00:44:11
我为你准备了Biopython解决方案。我首先假设你的genbank文件与一个基因组序列有关,然后我将提供一个不同的解决方案,假设它是一个基因序列。事实上,如果知道你正在处理的是其中的哪一个,那将是很有帮助的。
基因组序列解析:
通过以下方式从文件中解析您的自定义genbank平面文件:
from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")如果你只想要原始序列,那么:
rawSequence = record.seq.tostring()现在,您可能需要为该序列命名,以便在生成.fasta之前为该序列指定一个">header“。让我们看看genbank .gb文件附带的名称:
nameSequence = record.features[0].qualifiers这将返回一个字典,其中包含由该genbank文件的作者注释的整个序列的各种同义词
基因序列解析:
通过以下方式从文件中解析您的自定义genbank平面文件:
from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")要获得基因的原始序列列表/所有基因的列表,请执行以下操作:
rawSequenceList = [gene.extract(record.seq.tostring()) for gene in record.features]获取每个基因序列的名称列表(更准确地说,是每个基因的同义词字典)
nameSequenceList = [gene.qualifiers for gene in record.features]https://stackoverflow.com/questions/6336853
复制相似问题