文章/答案/技术大牛

发布

社区首页 >问答首页 >具有后视奇怪行为的正则表达式

问具有后视奇怪行为的正则表达式
EN

Stack Overflow用户

提问于 2014-12-01 00:32:26

回答 2查看 76关注 0票数 3

在过去的两天里，我一直在努力解决这个问题。

请帮助我理解为什么会发生这种情况。我的目的是只选择具有<DTL1 val="92">.....</HDR>的<HDR>

这是我的正则表达式

(?<=<HDR>).*?<DTL1\sval="3".*?</HDR>

输入字符串为：

<HDR>abc<DTL1 val="1"><DTL2 val="2"></HDR><HDR><DTL1 val="92"><DTL2 val="55"></HDR><HDR><DTL1 val="3"><DTL2 val="4"></HDR>

但是这个正则表达式选择

abc<DTL1 val="1"><DTL2 val="2"></HDR><HDR><DTL1 val="92"><DTL2 val="55"></HDR>

有谁能帮帮我吗？

regex-greedy

java

javascript

python

regex

回答 2

Stack Overflow用户

发布于 2014-12-01 01:02:46

正则表达式引擎将始终为您提供字符串中最左侧的匹配(即使您使用非贪婪的量词)。这就是你所得到的。

因此，一个解决方案是禁止在.*?所描述的部分中出现另一个过于宽松的<HDR>。

有两种技术可以做到这一点，您可以将.*?替换为：

(?>[^<]+|<(?!/HDR))*

或通过以下方式：

(?:(?!</HDR).)*+

大多数情况下，第一种方法的性能更好，但是如果字符串包含高密度的<，那么第二种方法也可以提供很好的结果。

使用possessive quantifier或atomic group可以减少获得结果的步骤数，特别是当子模式失败时。

示例：

使用第一种方法：

(?<=<HDR>)(?>[^<]+|<(?!/HDR))*<DTL1\sval="3"(?>[^<]+|<(?!/HDR))*</HDR>

或者这个变种：

(?<=<HDR>)(?:[^<]+|<(?!/HDR|DTL1))*+<DTL1\sval="3"(?:[^<]+|<(?!/HDR))*+</HDR>

使用第二种方法：

(?<=<HDR>)(?:(?!</HDR).)*<DTL1\sval="3"(?:(?!</HDR).)*+</HDR>

或者这个变种：

(?<=<HDR>)(?:(?!</HDR|DTL1).)*+<DTL1\sval="3"(?:(?!</HDR).)*+</HDR>

票数 2

Stack Overflow用户

发布于 2014-12-01 04:22:17

Casimir et Hippolyte已经给你提供了几个很好的解决方案。我想详细说明几件事。

首先，为什么您的正则表达式不能执行您想要的操作：(?<=<HDR>).*?告诉它匹配以<HDR>开头的第一个字符开始的任意数量的字符，直到它遇到非贪婪量词(<DTL1...)之后的字符。嗯，<HDR>前面的第一个字符是第一个a，所以它匹配从那里开始的所有内容，直到遇到固定字符串<DTL1\sval="3"。

Casimir et Hippolyte的解决方案是针对一般情况的，其中标签的内容可以是嵌套的以外的任何内容。你也可以积极地向前看：

(?<=<HDR>)(.(?!</HDR>))*<DTL1\sval="3".*?</HDR>

但是，如果确保字符串位于所示的结构中，其中的标记只包含一个或多个标记，因此您知道其中不会有任何结束标记，则可以通过将第一个.*?替换为[^/]*来更有效地完成此操作：

(?<=<HDR>)[^/]*<DTL1\sval="3".*?</HDR>

被否定的字符类比零宽度断言更有效，如果您使用被否定的字符类，贪婪的量词比懒惰的量词更有效。

还要注意的是，通过使用lookbehind来匹配开头，可以将其从匹配中排除，但可以包含结尾。你确定那是你想要的吗？你要匹配这个..。

<DTL1 val="3"><DTL2 val="4"></HDR>

...when大概你想要这个..。

<HDR><DTL1 val="3"><DTL2 val="4"></HDR>

...or这个。

<DTL1 val="3"><DTL2 val="4">

因此，在第一种情况下，不要对开始标记使用后视：

<HDR>(.(?!</HDR>))*<DTL1\sval="3".*?</HDR>
<HDR>[^/]*<DTL1\sval="3".*?</HDR>

在第二种情况下，使用结束标记的先行标记：

(?<=<HDR>)(.(?!</HDR>))*<DTL1\sval="3".*?(?=</HDR>)
(?<=<HDR>)[^/]*<DTL1\sval="3".*?(?=</HDR>)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/27215466

复制

相似问题

问具有后视奇怪行为的正则表达式
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有后视奇怪行为的正则表达式EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有后视奇怪行为的正则表达式
EN