我刚开始编程,在过去的几个星期里,我一直在研究生物信息学的问题,而且进展非常有限。
我有一个包含大量基因组的大FASTA文件,我希望在我的文件中运行一个全-vs-全爆炸搜索来识别同源/同源序列(通过使用-outfmt 6对它们的长度进行>=95%序列相似性来识别),并打印那些和非同源/同源基因到一个有机体-vs-基因存在/缺失矩阵(“1”=存在,“0”=缺席)。我被告知,一种交互式的vs可以将所有同源/正交结构更新到一个文件中,然后从数据库中删除它们并重复这些过程,直到无法执行更多相关的BLAST搜索为止,这可能是一种解决这个问题的方法,但尽管我做了很多努力,我还是想不出该怎么做。在可能的情况下,我更愿意在Python和Unix/Linux中这样做。
有人能帮忙吗?
例如:
如果有3个生物和4个基因,如果BLAST结果显示Gene_1存在于Organisms_1中,2;Gene_2存在于所有生物体中,Gene_3仅存在于Organism_1中,Gene_4仅存在于Organism_3中。
Gene_1 Gene_2 Gene_3 Gene_4
Org_1 1 1 1 0
Org_2 1 1 0 0
Org_3 0 1 0 1发布于 2015-11-13 17:35:34
如果我理解得对,你需要得到以下信息:
-which是同源/同源基因
-In种是它们的存在
有一个程序,差不多就是这么做的,让我给你介绍一下SiLiX
http://lbbe.univ-lyon1.fr/SiLiX
你可以下载它并将它参数化到你95%的身份,你“给它”的结果,你的所有针对所有爆炸。你会得到一个包含你想要的信息的文件!
该文件易于解析(特别是在python中),因此您可以从中提取您想要的所有信息。这样你就可以创建你的矩阵了。
https://stackoverflow.com/questions/31819132
复制相似问题