文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用python从pdf中提取粗体文本？

问如何使用python从pdf中提取粗体文本？
EN

Stack Overflow用户

提问于 2022-01-31 20:00:02

回答 2查看 1.7K关注 0票数 2

下面的列表提供了不应单独计费的项目和服务的示例。请注意，该列表并不是全部包含.。

1.手术室和服务--包括外科套间、大大小小的手术套间、治疗室、内窥镜实验室、心脏造影实验室、X光片。

2.设施基本收费-肺和心脏病程序室。医院对外科套间和服务的收费应包括上述全部护理人员服务、用品和设备。

我想要的输出如下：

手术室和服务
设施基本收费

第一句也是粗体，但我们需要省略这句话，我们只需要提取那些用数字表示的文本。

nlp

python-re

python

回答 2

Stack Overflow用户

回答已采纳

发布于 2022-02-01 17:36:08

使用本守则：

import pdfplumber
import re
demo = []
with pdfplumber.open('HCSC IL Inpatient_Outpatient Unbundling Policy- Facility.pdf') as pdf: 
    for i in range(0, 50):
        try:
            text = pdf.pages[i]  
            clean_text = text.filter(lambda obj: obj["object_type"] == "char" and "Bold" in obj["fontname"])
            demo.append(str(re.findall(r'(\d+\.\s.*\n?)+', clean_text.extract_text())).replace('[]', ' '))
        except IndexError:
            print("")
            break

票数 0

Stack Overflow用户

发布于 2022-01-31 20:59:34

您可以使用以下代码来完成它：

import pdfplumber
with pdfplumber.open('test.pdf') as pdf: 
    text = pdf.pages[0]
    clean_text = text.filter(lambda obj: obj["object_type"] == "char" and "Bold" in obj["fontname"])
    print(clean_text.extract_text())

它使用水管工库，因此要获得更多信息，可以查看它们的文档。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70932129

复制

相似问题

问如何使用python从pdf中提取粗体文本？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用python从pdf中提取粗体文本？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用python从pdf中提取粗体文本？
EN