我收到的短信如下-
02052020 02:40:02.445: Vacation Allowance: 21; nnnnnn Vacation Allowance: 22;nnn
我想在Python中提取下面的内容-
Vacation Allowance: 21
Vacation Allowance: 22基本上,我想提取所有出现的“休假津贴:”和后面的数值这个后缀;
我用了下面的正则表达式-
(.*)(Vacation Allowance:)(.*);(.*)完整的Python代码如下-
import re
text = '02/05/2020 Vacation Allowance: 21; 02/05/2020 Vacation Allowance: 22; nnn'
pattern = re.compile(r'(.*)(Vacation Allowance:)(.*);(.*)')
for (a,b,c,d) in re.findall(pattern, text):
print(b, " ", c)这并不是所有事件都会出现,而是只会出现最后一次事件。目前的输出是-
Vacation Allowance: 22你能评论一下我如何提取所有的事件吗?
发布于 2020-08-13 01:48:20
问题在于所使用的正则表达式。(.*)块接受的字符串比您想象的要多-- .*被称为贪婪的操作,在匹配的同时,它将消耗尽可能多的字符串。这就是为什么您只看到一个输出。
建议匹配类似Vacation Allowance:\s*\d+;或类似的东西。
text = '02/05/2020 Vacation Allowance: 21; 02/05/2020 Vacation Allowance: 22; nnn'
m = re.findall('Vacation Allowance:\s*(\d*);', text, re.M)
print(m)结果:['21', '22']
发布于 2020-08-12 15:21:02
在Javascript中,它将是'text'.match(/\bVacation Allowance: \d+/g)
您需要全局属性g
https://stackoverflow.com/questions/63379307
复制相似问题