我有一个FASTA文件,其中包含与各州和它们的cites相关的序列。是否有可能使用python通过木星笔记本运行一个MSA和集群,然后创建一个系统发育树与对齐序列。我不知道从哪里开始,当我被分配任务时,没有明确的方向。
发布于 2021-12-18 21:41:07
免责声明:我没有生物学背景。
据我所知,FASTA格式包含一个字母序列,而对齐意味着查找序列#1是否包含或部分重叠于序列#2。这是字符串操作,Python非常擅长。您需要编写一个包含两个字符串并返回所需内容的函数。
我在Github上找到了一个库,它似乎就是这样做的,我不知道在您的情况下是否允许使用它。以下代码片段摘自文档。https://github.com/benchling/clustalo-python
from clustalo import clustalo
input = {
'seq1': 'AAATCGGAAA',
'seq2': 'CGGA'
}
aligned = clustalo(input)
# aligned is a dict of aligned sequences:
# seq1: AAATCGGAAA
# seq2: ----CGGA--一旦您能够估计序列的相似性,您就可以按顺序显示它们。
你可以在木星笔记本里画画,这里可以看到一个例子:在Google Colab中使用Turtle。或者您可以用文本格式显示树,使用空格、制表符等来格式化树。
https://stackoverflow.com/questions/70407195
复制相似问题