文章/答案/技术大牛

发布

社区首页 >问答首页 >按主题提取PDF文本

问按主题提取PDF文本
EN

Stack Overflow用户

提问于 2016-04-03 11:54:10

回答 1查看 106关注 0票数 0

我试着按主题从PDF中提取课文。为了做到这一点，我试图识别PDF中的标签\标题。

到目前为止，我已经将PDF转换成xml文件，以便更容易地获取文本数据，然后使用每一行的字体\大小来保存(如果一行是标签)。这种方法的主要问题是，每个PDF都可以有自己的构建，而不一定对一个PDF适用于另一个PDF。

如果有人知道如何克服这个问题，我会很高兴，这样就可以不依赖PDF (我使用的大多数PDF文件是文章\书籍)而提取标签(按主题分类)--按主题提取文本的不同方法也很受欢迎。

(如标记所示，我正试图用Python进行此操作)

编辑：

现在我做了两件事：

检查每一行的字体
检查每一行文本大小

我得出的结论是:普通文本的字体行最多(这种字体的x10行比所有其他文本都多)，如果您查看文本大小的中值，它将是常规文本的大小。从第一个，我可以删除所有的常规文本，从第二个，我可以采取所有的文本是更大的，所有的标签将在这个列表中。

现在的问题是只从这个列表中提取标签，因为通常会有比常规文本更大但不是标签的文本。我试着用文本中每种字体显示的时间来识别标签字体，但没有成功。对于每个PDF，金额可能会有所不同。

我正在寻找如何解决这个问题的想法，或者如果有人知道一个工具可以更容易地解决这个问题。

python

pdf

回答 1

Stack Overflow用户

发布于 2016-04-03 12:08:24

我建议研究许多pdfs，并写下每一个pdf标签文本大小。然后，你可以平均前5个最高的字体和平均前5个最低字体。现在，您可以在它们之间设置一个范围，并检查文本是否在该文本大小范围内。这种方法并不总是有效的，但是，它将覆盖大部分pdfs。

(你学习的pdfs越多越好)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36385070

复制

相似问题

问按主题提取PDF文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问按主题提取PDF文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问按主题提取PDF文本
EN