首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用Smalot/PDFParser从PHP中的PDF文件中提取书签?

如何使用Smalot/PDFParser从PHP中的PDF文件中提取书签?
EN

Stack Overflow用户
提问于 2017-08-04 10:30:39
回答 1查看 818关注 0票数 0

现在,我正在使用PHP和Laravel。我的目标是从上传的PDF文件(使用表单和POST方法)中提取尽可能多的信息,例如元数据(作者、标题等)、第一页(封面)、每一页的内容和可用章节(从书签中)。

我目前正在使用smalot的Parser可用的这里,但是文档只涵盖了一些我已经从PDF文件中得到的基本示例。

问题:,我目前的问题是提取这些书签,以便完成章节的要求。有人知道如何使用这个特定的解析器提取这种类型的内容吗?

目前我的代码如下所示:

代码语言:javascript
复制
<table>
    <?php
        $details  = $PDFfile->getDetails();
        // Loop over each property to extract values (string or array).
        foreach ($details as $property => $value) {
            if (is_array($value)) {
                $value = implode(', ', $value);
            }
            echo '<tr>';
            echo '<td><b>'.$property . '</b></td><td>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</td><td>' . $value . "</td>";
            echo '</tr>';
        }
    ?>
</table>

请注意,这只会产生一个如下所示的输出:

代码语言:javascript
复制
[Producer] => dvips + GNU Ghostscript 7.05
[Creator] => LaTeX with hyperref package
[Title] => 
[Subject] => 
[Author] => 
[Keywords] => 
[Pages] => 11
EN

回答 1

Stack Overflow用户

发布于 2017-08-07 14:49:39

我没有使用Smalot的经验,但我确实有从PDF书签中提取信息的经验。因此,查看PDF参考的12.3.3节和smalot文档,我将从Document getDictionary()开始,从该字典中获取“大纲”条目,然后遍历树,查看第一个、下一个标题、最后一个条目和计数条目。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45504470

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档