首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Ghostscript正在将pdf转换为文本文件,输出不可读

Ghostscript正在将pdf转换为文本文件,输出不可读
EN

Stack Overflow用户
提问于 2016-10-25 04:55:03
回答 1查看 1.5K关注 0票数 2

我正在尝试将pdf文档转换为文本文件。一切正常,直到我打开输出文件,看到它是不可读的字符是一些中文字体

“琀攀猀琀 ”

这是我的命令行

代码语言:javascript
复制
gswin64c.exe -ps2ascii -sDEVICE=txtwrite -sOutputFile=outputtext.txt test.pdf 

我做错了什么吗?

EN

回答 1

Stack Overflow用户

发布于 2016-10-25 15:13:06

您还没有发布该文件,因此不可能绝对确定,但是...

几乎可以肯定的是,PDF文件中的文本不是使用ASCII编码方案编码的(可能包含日落字体),并且不包含相关字体的ToUnicode CMap。此外,字形名称不是标准名称(或者是TrueType字体,没有命名字形)。

如果没有上面的任何信息,txtwrite就不知道字符代码代表什么,所以只会逐字地发出它们。

考虑到您看到的是中文字形,我怀疑原始字体是一个CIDFont,可能是一个TrueType字体子集,并且没有ToUnicode CMap。

在这种情况下,获取文本的唯一方法是使用OCR。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40227388

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档