我从来没有见过这样的事情。我使用一个名为pdf2htmlEX的工具,它可以将PDF转换为HTML,但我有一个奇怪的问题。看看这张截图:

看到第一个字符(W)了吗?它是泰晤士报的新罗马文。现在更奇怪的是:


只有W和'是以Times New Roman (2个字形)表示的,而其余的则是以振动Sans表示的。这怎么可能呢?pdf2htmlEX如何能够为每个字符使用不同的字体?
请注意,如果我在其他地方写这些字符,它们都是无衬线字体(文档最初是Verdana,所以这就是为什么)。
你知道为什么会发生这种情况吗?我该怎么解决呢?
发布于 2018-04-05 19:53:29
所以,我可能已经找到了答案,但老实说,这不是我想要的。
我拥有的PDF是在Microsoft Word中创建的,并导出为PDF,它从未使用字符W(在本例中)。当我在文档中随机添加它时,它现在可以正常地在HTML中显示它。
我感觉pdf2htmlEX会根据文档中使用的字符来编译字体。非常奇怪。
我不确定我有一个解决这个问题的办法,但现在我至少有了一个解释。
https://stackoverflow.com/questions/49671062
复制相似问题