首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将GenBank平面文件转换为FASTA

将GenBank平面文件转换为FASTA
EN

Stack Overflow用户
提问于 2011-06-14 05:55:11
回答 2查看 2.3K关注 0票数 2

我需要解析一个初步的GenBank平面文件。这个序列还没有发布,所以我不能通过注册来查找它并下载FASTA文件。我刚接触生物信息学,有人能告诉我在哪里可以找到BioPerl或BioPython脚本来自己做这件事吗?谢谢!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-06-14 18:38:46

您需要Bio::SeqIO模块来读取或写出生物信息学数据。SeqIO HOWTO应该会告诉你你需要知道的一切,但是here's a small read-a-GenBank-file script in Perl会帮你入门!

票数 0
EN

Stack Overflow用户

发布于 2013-11-24 00:44:11

我为你准备了Biopython解决方案。我首先假设你的genbank文件与一个基因组序列有关,然后我将提供一个不同的解决方案,假设它是一个基因序列。事实上,如果知道你正在处理的是其中的哪一个,那将是很有帮助的。

基因组序列解析:

通过以下方式从文件中解析您的自定义genbank平面文件:

代码语言:javascript
复制
from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")

如果你只想要原始序列,那么:

代码语言:javascript
复制
rawSequence = record.seq.tostring()

现在,您可能需要为该序列命名,以便在生成.fasta之前为该序列指定一个">header“。让我们看看genbank .gb文件附带的名称:

代码语言:javascript
复制
nameSequence = record.features[0].qualifiers

这将返回一个字典,其中包含由该genbank文件的作者注释的整个序列的各种同义词

基因序列解析:

通过以下方式从文件中解析您的自定义genbank平面文件:

代码语言:javascript
复制
from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")

要获得基因的原始序列列表/所有基因的列表,请执行以下操作:

代码语言:javascript
复制
rawSequenceList = [gene.extract(record.seq.tostring()) for gene in record.features]

获取每个基因序列的名称列表(更准确地说,是每个基因的同义词字典)

代码语言:javascript
复制
nameSequenceList = [gene.qualifiers for gene in record.features]
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6336853

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档