fonts-liberationlibreoffice-calclibreofficepdf2htmlex我甚至在heroku bash中检查了pdf2htmlEX的版本。pdf2htmlEX --versionCopyright 2012-2015 Lu Wang <coolwanglu@gmail.com> andother contribu
我使用pdf2htmlEX,以便将pdf文件转换为html。之后,我还从文件中提取文本。我遇到一个文件,转换后的html中的文本不可读:。我使用的命令:html上的文本有很多空格和引号-
2"M."Ha h n,"O ."有一个在线工具使用这个库,那里生成的html很好,这使得它不是一个pdf2htmlEX错误,而是一个或多个版本问题。可能是与poppler或字体伪造有关的东西。Supported i
我从来没有见过这样的事情。我使用一个名为的工具,它可以将PDF转换为HTML,但我有一个奇怪的问题。看看这张截图:看到第一个字符(W)了吗?它是泰晤士报的新罗马文。现在更奇怪的是:
只有W和'是以Times New Roman (2个字形)表示的,而其余的则是以振动Sans表示的。这怎么可能呢?如何能够为每个字符使用不同的字体?你知道为什么会发生这种情况吗?我该怎么解决呢?