文章/答案/技术大牛

发布

社区首页 >问答首页 >如何读出JBIG2算法在我的pdf中使用的符号字典的属性？

问如何读出JBIG2算法在我的pdf中使用的符号字典的属性？
EN

Stack Overflow用户

提问于 2022-05-24 11:09:24

回答 1查看 88关注 0票数 3

我有一个PDF，其中包含一个长长的列表编号，它是使用JBIG2算法压缩的。当我查找我可以找到的文件的内部文件结构时，我的页面是用两个不同的XObjects构建的：

(图为Acrobat飞行前->内部结构。)

我可以很容易地查看第一个名为"XIPLAYER0“(而不是图片)的细节--如果我愿意的话，它甚至可以一点一点地提供给我信息。第二个是我对它感兴趣的那个。在它中，我可以看到图像是用2个“符号词典”(第一个标记为灰色)构建的。能在这本字典里看到不同的词条吗？或者仅仅为其中之一得到一些元数据？

样本PDF(外部链接)

pdf

image-processing

image-compression

jbig2

回答 1

Stack Overflow用户

发布于 2022-05-24 15:08:05

这并不是关于PDF的，PDF只是JBIG2格式及其符号字典的容器，这正是您真正感兴趣的。

但是，作为第一步，您需要将JBIG2图像从PDF中提取出来：

从PDF中提取图像，如何处理JBIG2编码

这就提到了poppler，poppler确实有一个Python绑定/包装器：

https://pypi.org/project/python-poppler/

一旦您获得了这些JBIG2文件，也许这会有所帮助：

dict.c

更大的项目有一个命令行util，它有一个“转储”选项，但是消息来源说它没有实现^1。

case dump:
    fprintf(stderr, "Sorry, segment dump not yet implemented\n");
    break;

因此，如果你只是好奇/这是一个学术问题，答案看起来是“不完全”。如果你需要阅读课文，那么OCR怎么样？

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72361820

复制

相似问题

问如何读出JBIG2算法在我的pdf中使用的符号字典的属性？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何读出JBIG2算法在我的pdf中使用的符号字典的属性？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何读出JBIG2算法在我的pdf中使用的符号字典的属性？
EN