我有一个pdf,它有以下映射:
<019A> <0074>
<039E> <00A9>
<019F> <00740069>
<01B5> <0075>
<01C0> <0076>
<01C7> <0079>
<03EC> <0030>映射cid <019F>表示连字ti。
在映射\u0074 -> t和\u0069 -> i(因此)连接ti时。
如何获取实际的连字unicode?或者我必须保留这种模式的轨迹,并用连字的实际unicode替换cid映射?
谢谢。
发布于 2019-04-20 17:33:32
从本质上讲,对于每个字符代码,不能假定映射中只有一个unicode字符。您必须获取这两个字符的输出。在unicode中,它甚至可以是两个以上的字符。有些字体也有"ffl“的连字。
这里还要注意的是,Unicode规范还为连字定义了特殊的单字符:https://en.wikipedia.org/wiki/Typographic_ligature,可以在映射中使用特殊的连字unicode字符。
https://stackoverflow.com/questions/31263701
复制相似问题