我想要一个正则表达式,可以提取"WUB“中的所有单词,但没有找到任何解决方案!例如,它将从"WUBWEWUBAREWUBWUBTHEWUBCHAMPIONSWUBMYWUBFRIENDWUB"中提取
以下字符串(不带引号) ["WE", "ARE", "THE", "CHAMPIONS"]
这是我到目前为止尝试过的:
((?:.(?!WUB))+),但它给出了以下输出(来自上面的示例):
['WUBW', 'WUBAR', 'WU', 'WUBTH', 'WUBCHAMPION', 'WUBM', 'WUBFRIEN', 'WUB']请帮助我更好地理解这个问题
发布于 2020-04-18 10:24:59
$str =~ / WUB \K (?:(?!WUB).)+ (?=WUB) /sxg或
$str =~ / (?<=WUB) (?:(?!WUB).)+ (?=WUB) /sxg # Probably slower.从WUB之后开始,在匹配项(\K)中实际不包含WUB,查找一个或多个不是WUB开头的字符。确保后跟WUB ((?=WUB))。
如果字符串始终以WUB开头和结尾,或者如果您不介意在第一个WUB之前和最后一个WUB之后获取文本,下面的内容会更清晰,而且肯定会更快:
grep length, split /WUB/, $str发布于 2020-04-18 18:02:50
不带前视/后视断言的简单REGEX表达式是:
/WUB((?:[^W]|W[^U]|WU[^B])+)/g这里假设测试的字符串以WUB结尾。如果没有,你要么在末尾加上一个带前瞻的零断言(?=WUB),
/WUB((?:[^W]|W[^U]|WU[^B])+)(?=WUB)/g或者在使用正则表达式之前删除最后一个WUB后面的任何字符。
s/WUB(?:[^W]|W[^U]|WU[^B])+$/WUB/。
#! /usr/bin/env perl
use strict;
use warnings;
use Data::Dumper;
my $s = "WUBWEWUBAREWUBWUBTHEWUBCHAMPIONSWUBMYWUBFRIENDWUB";
print Dumper ([$s =~ /WUB((?:[^W]|W[^U]|WU[^B])+)/g]);打印输出:
$VAR1 = [
'WE',
'ARE',
'THE',
'CHAMPIONS',
'MY',
'FRIEND'
];发布于 2020-04-18 18:49:55
另一种方法是使用split:
my $str = "WUBWEWUBAREWUBWUBTHEWUBCHAMPIONSWUBMYWUBFRIENDWUB";
# grep is here to remove empty elements
my @list = grep length, split /WUB/, $str;
say Dumper\@list;输出:
$VAR1 = [
'WE',
'ARE',
'THE',
'CHAMPIONS',
'MY',
'FRIEND'
];use Modern::Perl;
use Benchmark qw(:all);
my $str = "WUBWEWUBAREWUBWUBTHEWUBCHAMPIONSWUBMYWUBFRIENDWUB";
my $count = -3;
cmpthese($count, {
'match' => sub {
my @list = $str =~ / WUB \K (?:(?!WUB).)+ (?=WUB) /sxg;
},
'split' => sub {
my @list = grep length, split /WUB/, $str;
},
});输出:
Rate match split
match 57806/s -- -54%
split 126455/s 119% --https://stackoverflow.com/questions/61280698
复制相似问题