在真核生物中,剪接mRNA具有三个关键特性:
因此,基本上,一个mRNA序列应该从ATG开始,后面跟着任意数量的As、Cs、Ts或Gs,然后是TAA或TAG或TGA,然后是5或更多的As。
我的(python)正则表达式是:^ATG[ATCG]*T(AA|AG|GA)A{5}A*$
然而,这是匹配的序列,在聚(A)尾之后有更多的字符,就好像$字符没有被识别一样。我做错了什么?
有效的例子:
ATGCTGATGATGATGATAGAAAAA
ATGTGAAAAAAAAAAAAAAAAAAAAAAAAAAAAA无效示例:
ATGCTGATGXTGATGATAGAAAAA
TATGCTGATGXTGATGATAGAAAAA
ATGTGAAAAAAAAAAAAAAAAAAAAAAAAAAAAAC编辑(我的完整代码):
file = open('potential_mRNA.fasta')
alignment = SeqIO.parse(file, 'fasta')
mRNA_seqs = []
mRNA_pattern = r'^ATG[ATCG]*T(AA|AG|GA)A{5}A*$'
for mrna in alignment:
sequence = str(mrna.seq)
if re.search(mRNA_pattern, sequence):
mRNA_seqs.append(sequence)发布于 2019-04-02 14:09:42
它的工作方式是这样的,因为第一个*是贪婪的,并且试图尽可能匹配,匹配所有后缀,正则表达式解析器永远不会超越解析[ATCG]。
然而,$应该使它像您所期望的那样工作,这样您的正则表达式对于您的任务是完全有效的,也许有一些未知的条件,我无法从您的问题中看到。
试试^ATG[ATCG]*?T(?:AA|AG|GA)A{5,}$
我使用了懒惰的*?而不是*,也使用了一个非捕获组(?:)和A{5,},而不是A{5}A*来进行优化。
https://stackoverflow.com/questions/54931073
复制相似问题