文章/答案/技术大牛

发布

社区首页 >问答首页 >Ghostscript正在将pdf转换为文本文件，输出不可读

问Ghostscript正在将pdf转换为文本文件，输出不可读
EN

Stack Overflow用户

提问于 2016-10-25 04:55:03

回答 1查看 1.5K关注 0票数 2

我正在尝试将pdf文档转换为文本文件。一切正常，直到我打开输出文件，看到它是不可读的字符是一些中文字体

“琀攀猀琀 ”

这是我的命令行

gswin64c.exe -ps2ascii -sDEVICE=txtwrite -sOutputFile=outputtext.txt test.pdf

我做错了什么吗？

pdf

ascii

ghostscript

回答 1

Stack Overflow用户

发布于 2016-10-25 15:13:06

您还没有发布该文件，因此不可能绝对确定，但是...

几乎可以肯定的是，PDF文件中的文本不是使用ASCII编码方案编码的(可能包含日落字体)，并且不包含相关字体的ToUnicode CMap。此外，字形名称不是标准名称(或者是TrueType字体，没有命名字形)。

如果没有上面的任何信息，txtwrite就不知道字符代码代表什么，所以只会逐字地发出它们。

考虑到您看到的是中文字形，我怀疑原始字体是一个CIDFont，可能是一个TrueType字体子集，并且没有ToUnicode CMap。

在这种情况下，获取文本的唯一方法是使用OCR。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40227388

复制

相似问题

问Ghostscript正在将pdf转换为文本文件，输出不可读
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Ghostscript正在将pdf转换为文本文件，输出不可读EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Ghostscript正在将pdf转换为文本文件，输出不可读
EN