我有大约500个fasta格式的蛋白质序列,这是我从blastp搜索得到的。从这些序列中,我需要有蛋白质名称、有机体、Uniprot ID,如果可能的话,还要有蛋白质家族,这样我就可以用这些信息构建一个表。
有没有什么办法可以用python做到这一点?一些与Uniprot通信功能?如何解析fasta报头中的信息?
发布于 2013-02-13 19:29:18
您应该看看具有FASTA解析器的Biopython。解析之后,您可以使用pandas DataFrame来构建一个表。如果没有一个示例数据片段,很难提供一个更深思熟虑的答案,但它应该是可行的,大约5行代码:)
from Bio import SeqIO
with open("example.fasta", "rU") as handle:
print list(SeqIO.parse(handle, "fasta"))https://stackoverflow.com/questions/14852437
复制相似问题