首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >PDFBox -可访问的PDF -如何检查PDF标签是否按照可访问性指南具有属性

PDFBox -可访问的PDF -如何检查PDF标签是否按照可访问性指南具有属性
EN

Stack Overflow用户
提问于 2018-12-27 16:41:19
回答 1查看 1.3K关注 0票数 5

需要检查PDF标签是否按照可访问性指南具有属性。示例:

  • H1 -验证H1是否存在于PDF中
  • 图像(图标记)-验证图像\图形有一个Alt文本
  • 语言-验证是否设置了语言属性,以便屏幕阅读器能够正确阅读。对于西班牙文和英文文件,应更新各自的语文代码。
  • 表-访问表对象并验证表结构是否正确(标题列与行列匹配,等等)

到目前为止,我能够:

  • 提取元数据并通过PDDocument.getDocumentInformation().getMetadataKeys();验证文档是否具有适当的标题、主题和生成信息
  • 通过检查PDDocument.getDocumentCatalog().getMarkInfo().isMarked();标志验证PDF是否可访问

为了访问这些标记,我尝试了以下选项:

  • getDocumentCatalog().getAcroForm()返回空
  • PDDocument.getDocumentCatalog().getPages().get(0).getAnnotations();返回空
  • 我试过遍历PDDocument.getDocumentCatalog().getStructureTreeRoot().getKids(),但它只返回一个StructElem类型的对象。

可访问PDF的创建是使用OpenText完成的,因此开发团队不了解PDFBox。在这里,我无法理解如何访问标记/对象(使用MarkedContent或其他东西)。

请建议如何提取单个对象(标记),如P、H1、Table、图/图像,并验证它们的属性。注意:这些属性的手动验证是使用Acrobat执行的。

EN

回答 1

Stack Overflow用户

发布于 2019-07-15 15:45:49

基于https://issues.apache.org/jira/browse/PDFBOX-7,您似乎可以使用PDFMarkedContentExtractor获取所需的信息。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53948192

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档