文章/答案/技术大牛

发布

社区首页 >问答首页 >将GenBank平面文件转换为FASTA

问将GenBank平面文件转换为FASTA
EN

Stack Overflow用户

提问于 2011-06-14 05:55:11

回答 2查看 2.3K关注 0票数 2

我需要解析一个初步的GenBank平面文件。这个序列还没有发布，所以我不能通过注册来查找它并下载FASTA文件。我刚接触生物信息学，有人能告诉我在哪里可以找到BioPerl或BioPython脚本来自己做这件事吗？谢谢!

biopython

bioperl

fasta

python

perl

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-06-14 18:38:46

您需要Bio::SeqIO模块来读取或写出生物信息学数据。SeqIO HOWTO应该会告诉你你需要知道的一切，但是here's a small read-a-GenBank-file script in Perl会帮你入门！

票数 0

Stack Overflow用户

发布于 2013-11-24 00:44:11

我为你准备了Biopython解决方案。我首先假设你的genbank文件与一个基因组序列有关，然后我将提供一个不同的解决方案，假设它是一个基因序列。事实上，如果知道你正在处理的是其中的哪一个，那将是很有帮助的。

基因组序列解析：

通过以下方式从文件中解析您的自定义genbank平面文件：

from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")

如果你只想要原始序列，那么：

rawSequence = record.seq.tostring()

现在，您可能需要为该序列命名，以便在生成.fasta之前为该序列指定一个">header“。让我们看看genbank .gb文件附带的名称：

nameSequence = record.features[0].qualifiers

这将返回一个字典，其中包含由该genbank文件的作者注释的整个序列的各种同义词

基因序列解析：

通过以下方式从文件中解析您的自定义genbank平面文件：

from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")

要获得基因的原始序列列表/所有基因的列表，请执行以下操作：

rawSequenceList = [gene.extract(record.seq.tostring()) for gene in record.features]

获取每个基因序列的名称列表(更准确地说，是每个基因的同义词字典)

nameSequenceList = [gene.qualifiers for gene in record.features]

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6336853

复制

相似问题

问将GenBank平面文件转换为FASTA
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将GenBank平面文件转换为FASTAEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将GenBank平面文件转换为FASTA
EN