首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用C# - ZUGFeRD中的A PDF从PDF/3中提取嵌入式XML文件

使用C# - ZUGFeRD中的A PDF从PDF/3中提取嵌入式XML文件
EN

Stack Overflow用户
提问于 2014-02-11 10:10:16
回答 2查看 3.4K关注 0票数 3

我目前正在处理新的德国ZUGFeRD文件。这些是PDF / A/3文件,其中有一个嵌入的XML文件,其中包含数据。

我想从PDF /3中提取这个XML文件,使用C#使用ABAPDV8.1。

知道怎么做吗?

非常感谢和问候,

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-02-11 16:27:35

我不知道libs pdf,但我想,pdf libs提供类似的访问pdfs内容。

首先来看一下1p0.pdf。尤其是第112页。这些图像显示了要找到xml流必须遍历的对象树。

有了这棵树,你就有了名字、类型和方向。现在,您可以遍历pdf对象树,以获得您正在寻找的XML内容。

基于图表的步骤。

  1. 阅读你的PDF
  2. 在PDF中获取目录
  3. 从目录中获取名为AF的数组
  4. AF数组获取第一个元素(应该是file spec)
  5. file spec获得名为EF的字典
  6. 获取EF的流内容

为了获得内容,需要执行以下步骤。

为了显示pdf的结构和浏览树,我建议使用像iText鲁普这样的工具

票数 3
EN

Stack Overflow用户

发布于 2014-02-12 10:39:08

我做了什么abcpdf:

  • 从Doc获取(几乎是Doc中所有对象的数组)
  • 由于ZUGFeRD只允许在PDF中嵌入一个文件,所以我只是在这个对象汤数组中搜索包含/EmbeddedFile的类型StreamObject之一。
  • 解压缩该对象的流,获取流的byte[]并将其写入xml文件
票数 -2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21698794

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档