需要检查PDF标签是否按照可访问性指南具有属性。示例:
到目前为止,我能够:
PDDocument.getDocumentInformation().getMetadataKeys();验证文档是否具有适当的标题、主题和生成信息PDDocument.getDocumentCatalog().getMarkInfo().isMarked();标志验证PDF是否可访问为了访问这些标记,我尝试了以下选项:
getDocumentCatalog().getAcroForm()返回空PDDocument.getDocumentCatalog().getPages().get(0).getAnnotations();返回空PDDocument.getDocumentCatalog().getStructureTreeRoot().getKids(),但它只返回一个StructElem类型的对象。可访问PDF的创建是使用OpenText完成的,因此开发团队不了解PDFBox。在这里,我无法理解如何访问标记/对象(使用MarkedContent或其他东西)。
请建议如何提取单个对象(标记),如P、H1、Table、图/图像,并验证它们的属性。注意:这些属性的手动验证是使用Acrobat执行的。
发布于 2019-07-15 15:45:49
基于https://issues.apache.org/jira/browse/PDFBOX-7,您似乎可以使用PDFMarkedContentExtractor获取所需的信息。
https://stackoverflow.com/questions/53948192
复制相似问题