我使用pdf2htmlEX,以便将pdf文件转换为html。之后,我还从文件中提取文本。
问题:
我遇到一个文件,转换后的html中的文本不可读:https://dspace.mit.edu/openaccess-disseminate/1721.1/101159。
我使用的命令:
pdf2htmlEX --tounicode 1 ./file.pdfhtml上的文本有很多空格和引号-

2"M."Ha h n,"O ."B ar bie ri,"F.P ."C a m p a na,R ."K t z“,"R ."G alla y,A p l."Ph ys ."A :"M a te r."S ci.P ro ce ss."8 2 "(2 00 6 )”
为--tounicode arg设置其他值,使文本变得乱七八糟。
有一个在线工具使用这个库,那里生成的html很好,这使得它不是一个pdf2htmlEX错误,而是一个或多个版本问题。可能是与poppler或字体伪造有关的东西。
版本:
pdf2htmlEX version 0.14.6
Copyright 2012-2015 Lu Wang <coolwanglu@gmail.com> and other contributors
Libraries:
poppler 0.54.0
libfontforge 20180906
cairo 1.14.6
Default data-dir: /usr/local/share/pdf2htmlEX
Supported image format: png jpg svg还尝试使用支持此项目并获得相同结果的新存储库,请参阅问题:https://github.com/pdf2htmlEX/pdf2htmlEX/issues/92
据您所知,pdf2htmlEX使用范围广泛的字符作为空格,例如“‘() +。因此,替换它们不是一种选择。
有没有办法让pdf2htmlEX不使用这些字符?
发布于 2018-09-16 05:30:11
我认为以下两个步骤是可行的:
https://stackoverflow.com/questions/52199150
复制相似问题