我尝试使用Python正则表达式来获取字符分隔字符串的第一个标记。我不想把带反斜杠的分隔符当作真正的分隔符,所以我使用了一个负向回溯断言。当分隔符是逗号时,它可以正常工作。
>>> import re
>>> re.match("(.*?)(?<!\\\\),.*", "Hello\, world!,This is a comma separated string,Third value").groups(1)[0]
'Hello\\, world!'然而,通过用撇号替换逗号的完全相同的代码根本不起作用。
>>> import re
>>> re.match("(.*?)(?<!\\\\)'.*", "Hello\' world!'This is an apostrophe separated string'Third value").groups(1)[0]
'Hello'
>>>我使用的是python 2.7.2,但我使用的是Python 3(在Ideone上测试的)。Python re documentation并没有表明'是一个特殊字符,所以我真的想知道,为什么我的'会被区别对待?
(请不要评论:谁会想要一个撇号分隔的文件。好吧..。我有……)
发布于 2013-05-03 19:18:21
print(repr("\'"),repr("\,"))结果如下:
"'" '\\,'正如您所看到的,"\'"实际上并没有包含\\。因此,当您将其更改为"\\'"时,模式将匹配producing:
Hello\' world!"\'"实际上是一个escape sequence
\‘单引号(')
很明显,原因是
>>> ord("\'") == ord("'")
True是因为"\'" 在上等同于"'"。\'是一个转义序列是有道理的:
>>> 'i\'ll'
"i'll"https://stackoverflow.com/questions/16357429
复制相似问题