文章/答案/技术大牛

发布

社区首页 >问答首页 >关于拆分PDF和OCR识别

问关于拆分PDF和OCR识别
EN

Stack Overflow用户

提问于 2021-04-20 14:42:40

回答 1查看 84关注 0票数 0

我有很多pdf文档，它们都是扫描过的文字版本。我需要在pdf中拆分一个页面。

例如，如果有1个页面。我需要将一页分成页眉部分，页脚部分，主体部分和侧面部分。

哪种编程语言和库给了我最大的灵活性来完成这样的任务，而不需要我做所有繁琐的工作。我对Python很熟悉。我知道Python的PDF和OCR库，但我找不到任何关于拆分单个页面的内容。

然后，最后希望将pdf页面的拆分部分传递给OCR，以识别字符并将输出转换为csv或文本文件。

提前感谢您……

split

ocr

python

pdf

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-04-20 16:43:54

为了以一种非常简单的方式拆分页面，我建议使用PDF Pluber，它是一个非常强大且有充分文档记录的工具，可以从PDF中提取文本、表格和图像。此外，它有一个非常方便的函数，称为crop，允许您只裁剪和提取所需的页面部分。

仅作为示例，代码如下所示(请注意，这将适用于任意数量的页面)：

filename = 'path/to/your/PDF'
crop_coords = [x0, top, x1, bottom]
text = ''
pages = []
with pdfplumber.open(filename) as pdf:
    for i, page in enumerate(pdf.pages):
        my_width = page.width
        my_height = page.height
        # Crop pages
        my_bbox = (crop_coords[0]*float(my_width), crop_coords[1]*float(my_height), crop_coords[2]*float(my_width), crop_coords[3]*float(my_height))
        page_crop = page.crop(bbox=my_bbox)
        text = text+str(page_crop.extract_text()).lower()
        pages.append(page_crop)

下面是对余弦的解释：

x0 = % Distance from left vertical cut to left side of page.
top = % Distance from upper horizontal cut to upper side of page.
x1 = % Distance from right vertical cut to right side of page.
bottom = % Distance from lower horizontal cut to lower side of page.

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67173746

复制

相似问题

问关于拆分PDF和OCR识别
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问关于拆分PDF和OCR识别EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问关于拆分PDF和OCR识别
EN