文章/答案/技术大牛

发布

社区首页 >问答首页 >使用Apache PdfBox提取两个书签之间的文本

问使用Apache PdfBox提取两个书签之间的文本
EN

Stack Overflow用户

提问于 2012-03-06 07:21:59

回答 1查看 2.1K关注 0票数 6

我使用Apache PDFBox读取具有书签定义的层次结构的PDF文档。层次结构是以树形式存在的，其内容仅在叶级。

使用以下代码提取两个叶级书签之间的文本：

Stripper.setStartBookmark(), 
Stripper.setEndBookmark(),
Stripper.writeText()),

返回整个页面中的文本。简而言之，我的问题类似于这条线中提到的问题。

有办法提取两个书签之间的内容吗？

如果是的话，我的代码应该做什么修改？

pdfbox

java

pdf

回答 1

Stack Overflow用户

发布于 2013-02-04 07:30:57

我猜您的书签不包含正确的数据。

听起来，您使用的书签只指向内容开始的页面，而不是页面上的location。

下面是一个包含位置数据的书签示例：

<Title Action="GoTo" Style="bold" Page="2 FitH 518">
Title Name
</Title>

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/9579501

复制

相似问题

问使用Apache PdfBox提取两个书签之间的文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Apache PdfBox提取两个书签之间的文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Apache PdfBox提取两个书签之间的文本
EN