现在,我正在使用PHP和Laravel。我的目标是从上传的PDF文件(使用表单和POST方法)中提取尽可能多的信息,例如元数据(作者、标题等)、第一页(封面)、每一页的内容和可用章节(从书签中)。
我目前正在使用smalot的Parser可用的这里,但是文档只涵盖了一些我已经从PDF文件中得到的基本示例。
问题:,我目前的问题是提取这些书签,以便完成章节的要求。有人知道如何使用这个特定的解析器提取这种类型的内容吗?
目前我的代码如下所示:
<table>
<?php
$details = $PDFfile->getDetails();
// Loop over each property to extract values (string or array).
foreach ($details as $property => $value) {
if (is_array($value)) {
$value = implode(', ', $value);
}
echo '<tr>';
echo '<td><b>'.$property . '</b></td><td> </td><td>' . $value . "</td>";
echo '</tr>';
}
?>
</table>请注意,这只会产生一个如下所示的输出:
[Producer] => dvips + GNU Ghostscript 7.05
[Creator] => LaTeX with hyperref package
[Title] =>
[Subject] =>
[Author] =>
[Keywords] =>
[Pages] => 11发布于 2017-08-07 14:49:39
我没有使用Smalot的经验,但我确实有从PDF书签中提取信息的经验。因此,查看PDF参考的12.3.3节和smalot文档,我将从Document getDictionary()开始,从该字典中获取“大纲”条目,然后遍历树,查看第一个、下一个标题、最后一个条目和计数条目。
https://stackoverflow.com/questions/45504470
复制相似问题