首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何读出JBIG2算法在我的pdf中使用的符号字典的属性?

如何读出JBIG2算法在我的pdf中使用的符号字典的属性?
EN

Stack Overflow用户
提问于 2022-05-24 11:09:24
回答 1查看 88关注 0票数 3

我有一个PDF,其中包含一个长长的列表编号,它是使用JBIG2算法压缩的。当我查找我可以找到的文件的内部文件结构时,我的页面是用两个不同的XObjects构建的:

(图为Acrobat飞行前->内部结构。)

我可以很容易地查看第一个名为"XIPLAYER0“(而不是图片)的细节--如果我愿意的话,它甚至可以一点一点地提供给我信息。第二个是我对它感兴趣的那个。在它中,我可以看到图像是用2个“符号词典”(第一个标记为灰色)构建的。能在这本字典里看到不同的词条吗?或者仅仅为其中之一得到一些元数据?

样本PDF(外部链接)

EN

回答 1

Stack Overflow用户

发布于 2022-05-24 15:08:05

这并不是关于PDF的,PDF只是JBIG2格式及其符号字典的容器,这正是您真正感兴趣的。

但是,作为第一步,您需要将JBIG2图像从PDF中提取出来:

从PDF中提取图像,如何处理JBIG2编码

这就提到了poppler,poppler确实有一个Python绑定/包装器:

https://pypi.org/project/python-poppler/

一旦您获得了这些JBIG2文件,也许这会有所帮助:

dict.c

更大的项目有一个命令行util,它有一个“转储”选项,但是消息来源说它没有实现^1

代码语言:javascript
复制
case dump:
    fprintf(stderr, "Sorry, segment dump not yet implemented\n");
    break;

因此,如果你只是好奇/这是一个学术问题,答案看起来是“不完全”。如果你需要阅读课文,那么OCR怎么样?

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72361820

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档