首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >pdf2HtmlEX - html上的文本与源pdf不同。

pdf2HtmlEX - html上的文本与源pdf不同。
EN

Stack Overflow用户
提问于 2018-09-06 07:54:31
回答 1查看 1.3K关注 0票数 5

我使用pdf2htmlEX,以便将pdf文件转换为html。之后,我还从文件中提取文本。

问题:

我遇到一个文件,转换后的html中的文本不可读:https://dspace.mit.edu/openaccess-disseminate/1721.1/101159

我使用的命令:

代码语言:javascript
复制
pdf2htmlEX --tounicode 1 ./file.pdf

html上的文本有很多空格和引号-

2"M."Ha h n,"O ."B ar bie ri,"F.P ."C a m p a na,R ."K t z“,"R ."G alla y,A p l."Ph ys ."A :"M a te r."S ci.P ro ce ss."8 2 "(2 00 6 )”

--tounicode arg设置其他值,使文本变得乱七八糟。

有一个在线工具使用这个库,那里生成的html很好,这使得它不是一个pdf2htmlEX错误,而是一个或多个版本问题。可能是与poppler或字体伪造有关的东西。

版本:

代码语言:javascript
复制
pdf2htmlEX version 0.14.6
Copyright 2012-2015 Lu Wang <coolwanglu@gmail.com> and other contributors
Libraries: 
  poppler 0.54.0
  libfontforge 20180906
  cairo 1.14.6
Default data-dir: /usr/local/share/pdf2htmlEX
Supported image format: png jpg svg

还尝试使用支持此项目并获得相同结果的新存储库,请参阅问题:https://github.com/pdf2htmlEX/pdf2htmlEX/issues/92

据您所知,pdf2htmlEX使用范围广泛的字符作为空格,例如“‘() +。因此,替换它们不是一种选择。

有没有办法让pdf2htmlEX不使用这些字符?

EN

回答 1

Stack Overflow用户

发布于 2018-09-16 05:30:11

我认为以下两个步骤是可行的:

  1. 使用正则表达式删除不必要的空格和引号。
  2. 为每个引用添加/添加段落标记,如下所示:

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52199150

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档