首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >按主题提取PDF文本

按主题提取PDF文本
EN

Stack Overflow用户
提问于 2016-04-03 11:54:10
回答 1查看 106关注 0票数 0

我试着按主题从PDF中提取课文。为了做到这一点,我试图识别PDF中的标签\标题。

到目前为止,我已经将PDF转换成xml文件,以便更容易地获取文本数据,然后使用每一行的字体\大小来保存(如果一行是标签)。这种方法的主要问题是,每个PDF都可以有自己的构建,而不一定对一个PDF适用于另一个PDF。

如果有人知道如何克服这个问题,我会很高兴,这样就可以不依赖PDF (我使用的大多数PDF文件是文章\书籍)而提取标签(按主题分类)--按主题提取文本的不同方法也很受欢迎。

(如标记所示,我正试图用Python进行此操作)

编辑:

现在我做了两件事:

  1. 检查每一行的字体
  2. 检查每一行文本大小

我得出的结论是:普通文本的字体行最多(这种字体的x10行比所有其他文本都多),如果您查看文本大小的中值,它将是常规文本的大小。从第一个,我可以删除所有的常规文本,从第二个,我可以采取所有的文本是更大的,所有的标签将在这个列表中。

现在的问题是只从这个列表中提取标签,因为通常会有比常规文本更大但不是标签的文本。我试着用文本中每种字体显示的时间来识别标签字体,但没有成功。对于每个PDF,金额可能会有所不同。

我正在寻找如何解决这个问题的想法,或者如果有人知道一个工具可以更容易地解决这个问题。

EN

回答 1

Stack Overflow用户

发布于 2016-04-03 12:08:24

我建议研究许多pdfs,并写下每一个pdf标签文本大小。然后,你可以平均前5个最高的字体和平均前5个最低字体。现在,您可以在它们之间设置一个范围,并检查文本是否在该文本大小范围内。这种方法并不总是有效的,但是,它将覆盖大部分pdfs。

(你学习的pdfs越多越好)

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36385070

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档