首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用gap将pdf中的段落分开的方法?

用gap将pdf中的段落分开的方法?
EN

Stack Overflow用户
提问于 2022-09-02 09:24:39
回答 1查看 41关注 0票数 1

我有一些pdf和2-3段每页。每一段通道都有一些线段间隔,但是当我用pymupdf阅读时,我看不到通道之间有任何机器可打印的分隔符。有没有其他方法,其他库可以做到这一点?

代码:

代码语言:javascript
复制
import fitz
from more_itertools import *
doc = fitz.open('IT_past.pdf',)
single_doc = doc.load_page(0)  # put here the page number
text=single_doc.get_text('text')
text

页面屏幕截图:在这里输入图像描述

pdf 全pdf

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-09-02 14:23:58

没有这样的空白,只是暂时它更容易,让我们仔细看看你的链接观众渲染:-

因此,让我们复制真实PDF中的内容(没有web侧html <p>标记):

代码语言:javascript
复制
support, product design, HR Management, knowledge process outsourcing for
pharmaceutical companies and large complex projects.
Software exports make up 20 % of India's total export revenue in 2003-04, up from 4.9 %
in 1997.This figure is expected to go up to 44% of annual exports by 2010. Though India

看到“没有空白”只是左对齐,非对齐(破烂的)文本,需要一个样式,如字体名称和拉伸位置添加到一个页面中保留行提要或真正的回车。(偶尔也会有一些后置空间或垂直/水平移动,但在行打印机文本中通常没有意义)。甚至“标签”“缩进”和一些空间字符通常在PDF打印输出中被丢弃。

如果您想要空隙或线包,您需要添加它们。

一个很好的替代方法是在这里使用poppler或xpdf -layout导出到-(控制台)或管道,或者用路径/name.txt替换它,还有许多其他选项,比如-nopgbrk

xpdf-tools-win-4.04\bin32>pdftotext -f 1 -l 1 -layout IT_past.pdf -

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73580435

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档