我正在处理大约1800个非典型肺炎冠状病毒2的全基因组序列,我只想保留"EPI_ISL_NC045512“模式,它在两个"|”之间。这将是我的字符串:
>New|hCoV-19/Belize/BZ-CML-TCMC-BZ002-0820/2020|EPI_ISL_NC045512|2020-08-12NC045512
actcacgcagtataattaataactaattactgtcgttgacaggacacgagtaactcgtctatcttctgcaggctgcttacggtttcgtccgtg我还需要保留我尝试过的(>)(.+)(EPI.+)(.+) (>),但它不起作用
发布于 2021-11-08 17:50:22
一个简单的例子可以是这个:|(EPI([A-Z0-9_]+))|
假设您的模式上只有A-Z 0-9和_,结果在组1中(用括号括起来)。
发布于 2021-11-08 20:20:47
如果您希望将>保留在一个组中,而将EPI_ISL_NC045512保留在一个组中,则可以使用2个捕获组
(>)[^>]*\|(EPI[^|]*)\|(>)组1[^>]*\|中的|(EPI[^|]*) Capture >可以选择匹配除>之外的任何字符,然后匹配组2\| match |中除以外的任何字符
https://stackoverflow.com/questions/69887740
复制相似问题