文章/答案/技术大牛

发布

社区首页 >问答首页 >提取引号前的字符串

问提取引号前的字符串
EN

Stack Overflow用户

提问于 2016-09-07 01:35:26

回答 1查看 56关注 0票数 0

我正在尝试用python解析一个pdf并提取引号中的字符串。我能够提取引用中的文本，但我也想在引用开始之前提取名称。例如:请考虑以下内容

齐布拉特，丹尼尔。2004年。重新思考联邦制的起源:十九世纪欧洲的难题、理论和证据

我能够提取一切报价，但我想要的名字也被提取。这是我正在使用的代码..请帮帮忙

def quotes(x):
    quoted = re.compile('"[^"]*"')
    for value in quoted.findall(x):
        print value

回答已采纳

发布于 2016-09-07 01:42:40

在双引号之前捕获数据应该是有效的：

def quotes(x):
    quoted = re.compile('(.+)"[^"]+"')
    for value in quoted.findall(x):
        print value.strip()

我得到了这个输出：

>>> quotes(text)
'Ziblatt, Daniel. 2004.'

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/39354823

复制

相似问题

问提取引号前的字符串EN