首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从PDF中提取实际的文本标题

从PDF中提取实际的文本标题
EN

Stack Overflow用户
提问于 2011-07-18 10:46:12
回答 1查看 967关注 0票数 1

从PDF中提取标题(使用其元数据)似乎有很多问题。然而,大多数标题似乎并不存在于元数据中。我在使用http://pybrary.net/pyPdf/pythondoc-pyPdf.pdf.html时发现了这个问题。

实际上是否有从pdf中检索文本标题的方法?我试图导出到一个文本文件,然后搜索,但没有一致的格式。有没有任何方法可以将pdf导出到带有格式的文档,然后检查字体大小>= 14?

EN

回答 1

Stack Overflow用户

发布于 2011-08-03 23:04:21

这是一个很好的问题。创建PDF的应用程序似乎对可用的元数据字段没有任何帮助。

以pdflatex为例:即使在序言中设置\title{.}和\author{.}时,元数据中也没有反映这一信息。快速搜索后,解决方案似乎是在序言中引入一个块,pdflatex 1只读取该块。

代码语言:javascript
复制
\pdfinfo
{
  /Title{...}
  /Author{...}
  ...
}

然后将...which放在PDF的相关元数据字段中。但奇怪的是,这是必要的。

我不能像word或Writer那样为字处理器说话。假设这样的元数据字段必须由用户手动设置。

如果PDF不是由您生成的,那么也许启发式方法是解决问题的唯一方法。它似乎做了一些与你想要的类似的事情,但我想这取决于PDF发表得有多好--这个工具似乎是以科学为导向的。

我希望这至少是有帮助的。

1 2

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6731735

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档