首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >PDFminer空输出

PDFminer空输出
EN

Stack Overflow用户
提问于 2017-05-07 14:10:28
回答 2查看 2K关注 0票数 6

在用pdfminer (pdf2txt.py)处理一个pdf2txt.py时,我收到了空输出:

代码语言:javascript
复制
dan@work:~/project$ pdf2txt.py  docs/homericaeast.pdf 

dan@work:~/project$ 

有人能说出这个文件有什么问题吗?我能做些什么来从它获取数据?

下面是dumppdf.py docs/homericaeast.pdf输出:

代码语言:javascript
复制
<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="2" /></value>
<key>Root</key>
<value><ref id="1" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">on&#10;&#164;&#181;F&#164;5&#193;&#62;&#243;_&#253;v&#172;`</string>
<string size="16">on&#10;&#164;&#181;F&#164;5&#193;&#62;&#243;_&#253;v&#172;`</string>
</list></value>
<key>Size</key>
<value><number>27</number></value>
</dict>
</trailer>

<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="2" /></value>
<key>Root</key>
<value><ref id="1" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">on&#10;&#164;&#181;F&#164;5&#193;&#62;&#243;_&#253;v&#172;`</string>
<string size="16">on&#10;&#164;&#181;F&#164;5&#193;&#62;&#243;_&#253;v&#172;`</string>
</list></value>
<key>Size</key>
<value><number>27</number></value>
</dict>
</trailer>
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-05-13 23:06:06

现在,我已经修复了/OneByteIdentityH的问题,类似于两个字节unicode映射/Identity-H的代码。修补程序在PR #179

票数 4
EN

Stack Overflow用户

发布于 2017-05-12 17:21:18

问题是pdfminer不理解您在这个PDF中使用的CMap。

如果您对pdfminer进行定制构建,在psparser.py中打开psparser.py,您将得到一个类似于以下内容的错误:

代码语言:javascript
复制
pdfminer.psparser.PSTypeError: Literal required: <PDFStream(21): raw=267, {u'Filter': /'FlateDecode', u'CMapName': /u'OneByteIdentityH', u'Type': /u'CMap', u'CIDSystemInfo': <PDFObjRef:20>, u'Length': 266}>

我对代码不是很熟悉,但即使允许这样做也没有帮助,因为它不识别映射(即使我硬编码名称到OneByteIdentityH并要求它查找)。最终的结果是,CMap不包含任何映射,因此它会将PDF中的每个字符转换为空字符串(如果我很挑剔的话,那么None )。

修复方法可能是为这个CMap创建一个映射,该映射只返回与cmapdb.py中已经实现的其他标识映射类似的传递的字符。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43832499

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档