从PDF中提取标题(使用其元数据)似乎有很多问题。然而,大多数标题似乎并不存在于元数据中。我在使用http://pybrary.net/pyPdf/pythondoc-pyPdf.pdf.html时发现了这个问题。
实际上是否有从pdf中检索文本标题的方法?我试图导出到一个文本文件,然后搜索,但没有一致的格式。有没有任何方法可以将pdf导出到带有格式的文档,然后检查字体大小>= 14?
发布于 2011-08-03 23:04:21
这是一个很好的问题。创建PDF的应用程序似乎对可用的元数据字段没有任何帮助。
以pdflatex为例:即使在序言中设置\title{.}和\author{.}时,元数据中也没有反映这一信息。快速搜索后,解决方案似乎是在序言中引入一个块,pdflatex 1只读取该块。
\pdfinfo
{
/Title{...}
/Author{...}
...
}然后将...which放在PDF的相关元数据字段中。但奇怪的是,这是必要的。
我不能像word或Writer那样为字处理器说话。假设这样的元数据字段必须由用户手动设置。
如果PDF不是由您生成的,那么也许启发式方法是解决问题的唯一方法。它似乎做了一些与你想要的类似的事情,但我想这取决于PDF发表得有多好--这个工具似乎是以科学为导向的。
我希望这至少是有帮助的。
1 2
https://stackoverflow.com/questions/6731735
复制相似问题