我的CGPDFScanner实例正在扫描一个测试pdf文件。
在给定时间,当前字体字典具有Encoding值Identity-H和具有关键字FontFile2的FontDescriptor字典。这个键恰好是一个流值,它的字典中有键Filter。此键的值为FlateDecode。
我不确定如何解释和使用它(例如,将下一个Tj块中的文本提取为Unicode)。例如,我是否只需对下一个Tj块中的字节进行zlib-解压缩?(这里没有ToUnicode密钥。)
我以为所有的解压缩都是由CGPDFScanner实例执行的。
发布于 2011-05-18 18:30:00
如果字体使用Identity-H编码,并且没有ToUnicode条目,则无法提取文本。Tj运算符的参数是一个字形索引序列,如果没有ToUnicode条目,则无法将此序列转换为文本。
FontFile2条目存储实际的字体文件,它在从PDF文件中提取文本时没有任何作用。
https://stackoverflow.com/questions/6041628
复制相似问题