我有一个复杂的文本文件,下面是其中的一部分:
& \multirow{2}{*}{52.7} & \multirow{2}{*}{3} & \multirow{2}{*}{$<$ 0.001}\\我对{*}之后的数字很感兴趣。以下是我在没有运气的情况下尝试过的:
import re
m = re.findall(r'{\*}{(.+)}', '& \multirow{2}{*}{52.7} & \multirow{2}{*}{3} & \multirow{2}{*} $<$ 0.001}\\')但是,我得到了以下结果:
['52.7} & \\multirow{2}{*}{3} & \\multirow{2}{*}{$<$ 0.001']我尝试了许多其他组合,但我要么得到第一个数字(例如,52.7),或中间数字(3)或以上。如何在一个组中获得52.7, 3, $<$ 0.001 (列表)。
发布于 2012-12-15 23:28:30
这是因为默认情况下,+和*运算符是贪婪的。改为使用非贪婪的修改:
{\*}{(.+?)}参考资料:http://www.regular-expressions.info/repeat.html (“小心贪婪!”)(一节)
发布于 2012-12-15 23:28:52
使用以下regex表达式:
\{\*\}\{(.*?)\}您应该使用反斜杠\转义所有特殊字符,并在结果集的子类中使用非贪婪的通配符.*?。
发布于 2012-12-15 23:30:35
m = re.findall(r'({\*}{([\d|\.?]+?)})+', '& \multirow{2}{*}{52.7} & \multirow{2}{*}{3} & \multirow{2}{*} $<$ 0.001}\\')
[('{*}{52.7}', '52.7'), ('{*}{3}', '3')]
m = re.findall(r'{\*}{([\d|\.?]+?)}+', '& \multirow{2}{*}{52.7} & \multirow{2}{*}{3} & \multirow{2}{*} $<$ 0.001}\\')
['52.7', '3']
m = re.findall(r'{\*}{(.*?)}', '& \multirow{2}{*}{52.7} & \multirow{2}{*}{3} & \multirow{2}{*} $<$ 0.001}\\')
['52.7', '3', '$<$ 0.001']https://stackoverflow.com/questions/13897120
复制相似问题