我试着创建一个程序来检查基因组序列。
上下文:
生物学家使用一系列字母A,C,T和G来模拟基因组。
基因是基因组的一个子串,起始于三胞胎ATG,结束于三胞胎标记TAA或TGA。
此外,基因串的长度是3的倍数,该基因不包含任何三胞胎ATG、TAG、TAA和TGA。
我想要的结果是:
>>Enter a genome string:>>TTATGTTTTAAGGATGGGGCGTTAGTT
Output:
>>TTT
>>GGGCGT
>>Enter a genome string:>>TGTGTGTATAT
>>No gene is found到目前为止我有:
import re
def findGene(gene):
pattern = re.compile(r'ATG((?:[ACTG]{3})*?)(?:TAG|TAA|TGA)')
return pattern.findall(gene)
findGene('TTATGTTTTAAGGATGGGGCGTTAGTT')
def main():
geneinput = input("Enter a genome string: ")
print(findGene(geneinput))
main()
# TTATGTTTTAAGGATGGGGCGTTAGTT如何使这些代码正常工作?
谢谢。
发布于 2020-05-14 15:05:30
import re
def findGene(gene):
pattern = re.compile(r'ATG((?:[ACTG]{3})*?)(?:TAG|TAA|TGA)')
return pattern.findall(gene)
findGene('TTATGTTTTAAGGATGGGGCGTTAGTT')
def main():
geneinput = input("Enter a genome string: ")
print(findGene(geneinput) or 'No gene is found')
main()
# TTATGTTTTAAGGATGGGGCGTTAGTThttps://stackoverflow.com/questions/61799044
复制相似问题