我正在使用CGPDFScanner从PDF中提取文本。
在调用我的TJ操作符回调时,当前字体的CIDSystemInfo->Registry值为"Adobe“,CIDSystemInfo->Ordering值为"Japan1”。即字符集"Adobe-Japan1“。
如何利用这一事实将使用Tj运算符找到的所有文本转换为unicode?
我敢肯定我不是只见树木不见森林。
发布于 2011-08-12 07:08:40
您可以使用Adobe的CMAP文件将Japan1重新映射到unicode。另请查看“附录”以获得正确的文件。
http://opensource.adobe.com/wiki/display/cmap/Downloads
https://stackoverflow.com/questions/6052516
复制相似问题