我正在尝试将pdf文档转换为文本文件。一切正常,直到我打开输出文件,看到它是不可读的字符是一些中文字体
“琀攀猀琀 ”
这是我的命令行
gswin64c.exe -ps2ascii -sDEVICE=txtwrite -sOutputFile=outputtext.txt test.pdf 我做错了什么吗?
发布于 2016-10-25 15:13:06
您还没有发布该文件,因此不可能绝对确定,但是...
几乎可以肯定的是,PDF文件中的文本不是使用ASCII编码方案编码的(可能包含日落字体),并且不包含相关字体的ToUnicode CMap。此外,字形名称不是标准名称(或者是TrueType字体,没有命名字形)。
如果没有上面的任何信息,txtwrite就不知道字符代码代表什么,所以只会逐字地发出它们。
考虑到您看到的是中文字形,我怀疑原始字体是一个CIDFont,可能是一个TrueType字体子集,并且没有ToUnicode CMap。
在这种情况下,获取文本的唯一方法是使用OCR。
https://stackoverflow.com/questions/40227388
复制相似问题