我试着按主题从PDF中提取课文。为了做到这一点,我试图识别PDF中的标签\标题。
到目前为止,我已经将PDF转换成xml文件,以便更容易地获取文本数据,然后使用每一行的字体\大小来保存(如果一行是标签)。这种方法的主要问题是,每个PDF都可以有自己的构建,而不一定对一个PDF适用于另一个PDF。
如果有人知道如何克服这个问题,我会很高兴,这样就可以不依赖PDF (我使用的大多数PDF文件是文章\书籍)而提取标签(按主题分类)--按主题提取文本的不同方法也很受欢迎。
(如标记所示,我正试图用Python进行此操作)
编辑:
现在我做了两件事:
我得出的结论是:普通文本的字体行最多(这种字体的x10行比所有其他文本都多),如果您查看文本大小的中值,它将是常规文本的大小。从第一个,我可以删除所有的常规文本,从第二个,我可以采取所有的文本是更大的,所有的标签将在这个列表中。
现在的问题是只从这个列表中提取标签,因为通常会有比常规文本更大但不是标签的文本。我试着用文本中每种字体显示的时间来识别标签字体,但没有成功。对于每个PDF,金额可能会有所不同。
我正在寻找如何解决这个问题的想法,或者如果有人知道一个工具可以更容易地解决这个问题。
发布于 2016-04-03 12:08:24
我建议研究许多pdfs,并写下每一个pdf标签文本大小。然后,你可以平均前5个最高的字体和平均前5个最低字体。现在,您可以在它们之间设置一个范围,并检查文本是否在该文本大小范围内。这种方法并不总是有效的,但是,它将覆盖大部分pdfs。
(你学习的pdfs越多越好)
https://stackoverflow.com/questions/36385070
复制相似问题