首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Apache PdfBox提取两个书签之间的文本

使用Apache PdfBox提取两个书签之间的文本
EN

Stack Overflow用户
提问于 2012-03-06 07:21:59
回答 1查看 2.1K关注 0票数 6

我使用Apache PDFBox读取具有书签定义的层次结构的PDF文档。层次结构是以树形式存在的,其内容仅在叶级。

使用以下代码提取两个叶级书签之间的文本:

代码语言:javascript
复制
Stripper.setStartBookmark(), 
Stripper.setEndBookmark(),
Stripper.writeText()), 

返回整个页面中的文本。简而言之,我的问题类似于这条线中提到的问题。

有办法提取两个书签之间的内容吗?

如果是的话,我的代码应该做什么修改?

EN

回答 1

Stack Overflow用户

发布于 2013-02-04 07:30:57

我猜您的书签不包含正确的数据。

听起来,您使用的书签只指向内容开始的页面,而不是页面上的location

下面是一个包含位置数据的书签示例:

代码语言:javascript
复制
<Title Action="GoTo" Style="bold" Page="2 FitH 518">
Title Name
</Title>
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9579501

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档