我使用Apache PDFBox读取具有书签定义的层次结构的PDF文档。层次结构是以树形式存在的,其内容仅在叶级。
使用以下代码提取两个叶级书签之间的文本:
Stripper.setStartBookmark(),
Stripper.setEndBookmark(),
Stripper.writeText()), 返回整个页面中的文本。简而言之,我的问题类似于这条线中提到的问题。
有办法提取两个书签之间的内容吗?
如果是的话,我的代码应该做什么修改?
发布于 2013-02-04 07:30:57
我猜您的书签不包含正确的数据。
听起来,您使用的书签只指向内容开始的页面,而不是页面上的location。
下面是一个包含位置数据的书签示例:
<Title Action="GoTo" Style="bold" Page="2 FitH 518">
Title Name
</Title>https://stackoverflow.com/questions/9579501
复制相似问题