文章/答案/技术大牛

发布

社区首页 >问答首页 >用Biopython定位蛋白质序列中的模式

问用Biopython定位蛋白质序列中的模式
EN

Stack Overflow用户

提问于 2017-06-21 13:16:39

回答 1查看 766关注 0票数 1

我正在寻找含有三肽的序列。除'P‘之外，该三肽还可以含有任何其他氨基酸。我用以下方法提取它们。

from Bio import SeqIO
RGD = [] 
for record in SeqIO.parse("input.fasta", "fasta"):
    rgd_count = record.seq.count('RGD')
    if rgd_count >= 1:
        RGD.append(record) 
SeqIO.write(RGD, "RGD_Proteins.fasta", "fasta")

在这种情况下，RGD(N)是很好的，除了RGDP之外，我如何引入regex呢？

提前谢谢。

接入点

python-3.x

pattern-matching

biopython

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-06-22 12:51:12

您可以使用re.findall查找str(record.seq)中所有不重叠的正则表达式匹配项。替换record.seq.count('RGD')

len(re.findall(r"RGD(?!P)", str(record.seq)))

另外，确保添加了import re。

RGD(?!P)模式匹配没有跟随P的RGD子字符串。如果在当前位置的右侧立即找到(?!P)的模式，则称为负前瞻性，这会使匹配失败。

见常规-Expressions.info“查找周遭”部分。

见regex演示。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/44677271

复制

相似问题

问用Biopython定位蛋白质序列中的模式
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用Biopython定位蛋白质序列中的模式EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用Biopython定位蛋白质序列中的模式
EN