文章/答案/技术大牛

发布

社区首页 >问答首页 >pdf2HtmlEX - html上的文本与源pdf不同。

问pdf2HtmlEX - html上的文本与源pdf不同。
EN

Stack Overflow用户

提问于 2018-09-06 07:54:31

回答 1查看 1.3K关注 0票数 5

我使用pdf2htmlEX，以便将pdf文件转换为html。之后，我还从文件中提取文本。

问题：

我遇到一个文件，转换后的html中的文本不可读：https://dspace.mit.edu/openaccess-disseminate/1721.1/101159。

我使用的命令：

pdf2htmlEX --tounicode 1 ./file.pdf

html上的文本有很多空格和引号-

2"M."Ha h n，"O ."B ar bie ri，"F.P ."C a m p a na，R ."K t z“，"R ."G alla y，A p l."Ph ys ."A :"M a te r."S ci.P ro ce ss."8 2 "(2 00 6 )”

为--tounicode arg设置其他值，使文本变得乱七八糟。

有一个在线工具使用这个库，那里生成的html很好，这使得它不是一个pdf2htmlEX错误，而是一个或多个版本问题。可能是与poppler或字体伪造有关的东西。

版本：

pdf2htmlEX version 0.14.6
Copyright 2012-2015 Lu Wang <coolwanglu@gmail.com> and other contributors
Libraries: 
  poppler 0.54.0
  libfontforge 20180906
  cairo 1.14.6
Default data-dir: /usr/local/share/pdf2htmlEX
Supported image format: png jpg svg

还尝试使用支持此项目并获得相同结果的新存储库，请参阅问题：https://github.com/pdf2htmlEX/pdf2htmlEX/issues/92

据您所知，pdf2htmlEX使用范围广泛的字符作为空格，例如“‘() +。因此，替换它们不是一种选择。

有没有办法让pdf2htmlEX不使用这些字符？

poppler

fontforge

pdf2htmlex

回答 1

Stack Overflow用户

发布于 2018-09-16 05:30:11

我认为以下两个步骤是可行的：

使用正则表达式删除不必要的空格和引号。
为每个引用添加/添加段落标记，如下所示：

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52199150

复制

相似问题

问pdf2HtmlEX - html上的文本与源pdf不同。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问pdf2HtmlEX - html上的文本与源pdf不同。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问pdf2HtmlEX - html上的文本与源pdf不同。
EN