我正在尝试用python解析一个pdf并提取引号中的字符串。我能够提取引用中的文本,但我也想在引用开始之前提取名称。例如:请考虑以下内容
齐布拉特,丹尼尔。2004年。重新思考联邦制的起源:十九世纪欧洲的难题、理论和证据
我能够提取一切报价,但我想要的名字也被提取。这是我正在使用的代码..请帮帮忙
def quotes(x):
quoted = re.compile('"[^"]*"')
for value in quoted.findall(x):
print value 发布于 2016-09-07 01:42:40
在双引号之前捕获数据应该是有效的:
def quotes(x):
quoted = re.compile('(.+)"[^"]+"')
for value in quoted.findall(x):
print value.strip()我得到了这个输出:
>>> quotes(text)
'Ziblatt, Daniel. 2004.'https://stackoverflow.com/questions/39354823
复制相似问题