文章/答案/技术大牛

发布

社区首页 >问答首页 >从PDF中提取实际的文本标题

问从PDF中提取实际的文本标题
EN

Stack Overflow用户

提问于 2011-07-18 10:46:12

回答 1查看 967关注 0票数 1

从PDF中提取标题(使用其元数据)似乎有很多问题。然而，大多数标题似乎并不存在于元数据中。我在使用http://pybrary.net/pyPdf/pythondoc-pyPdf.pdf.html时发现了这个问题。

实际上是否有从pdf中检索文本标题的方法？我试图导出到一个文本文件，然后搜索，但没有一致的格式。有没有任何方法可以将pdf导出到带有格式的文档，然后检查字体大小>= 14？

pdf

title

extraction

回答 1

Stack Overflow用户

发布于 2011-08-03 23:04:21

这是一个很好的问题。创建PDF的应用程序似乎对可用的元数据字段没有任何帮助。

以pdflatex为例:即使在序言中设置\title{.}和\author{.}时，元数据中也没有反映这一信息。快速搜索后，解决方案似乎是在序言中引入一个块，pdflatex 1只读取该块。

\pdfinfo
{
  /Title{...}
  /Author{...}
  ...
}

然后将...which放在PDF的相关元数据字段中。但奇怪的是，这是必要的。

我不能像word或Writer那样为字处理器说话。假设这样的元数据字段必须由用户手动设置。

如果PDF不是由您生成的，那么也许启发式方法是解决问题的唯一方法。它似乎做了一些与你想要的类似的事情，但我想这取决于PDF发表得有多好--这个工具似乎是以科学为导向的。

我希望这至少是有帮助的。

1 2

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6731735

复制

相似问题

问从PDF中提取实际的文本标题
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从PDF中提取实际的文本标题EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从PDF中提取实际的文本标题
EN