文章/答案/技术大牛

发布

社区首页 >问答首页 >使用openjpeg2运行tesseract 4.1 -无法生成pdf输出

问使用openjpeg2运行tesseract 4.1 -无法生成pdf输出
EN

Stack Overflow用户

提问于 2019-12-17 15:04:03

回答 1查看 534关注 0票数 0

我已经安装在我的RedHat机器上：

(py36_maw) [rvp@lib-archcoll box]$ tesseract -v
tesseract 4.1.0
 leptonica-1.78.0
  libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libopenjp2 2.3.1
 Found SSE

我试图运行，根据我能找到的文档，生成pdf输出：

(py36_maw) [rvp@lib-archcoll box]$ time tesseract test.jp2 out -l eng PDF
read_params_file: Can't open PDF
Tesseract Open Source OCR Engine v4.1.0 with Leptonica
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 275

这需要10秒，并产生文件out.txt与精细的OCR到文本转换明显。

但是，它试图读取一个名为PDF的文件，但我不知道如何获得PDF输出。

我读过各种文档，其中最有希望的似乎是建议编辑配置文件，但我能猜到的唯一文档是相关的，我可以在googling上搜索'tesseract 4.1 config'，列出较早版本的tesseract的许多“config”变量名，但似乎没有任何一个文档表明我可以指定生成pdf输出，尤其是对tesseract 4.1。

如何通过CLI调用tesseract 4.1 (使用libopenjp2 2.3.1)从我的jp2输入文件中生成pdf输出？额外的问题:如何让它在一次运行中同时产生txt和pdf输出？

罗伯特

pdf

output

tesseract

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-12-17 21:54:24

在进行了更多的浏览和挖掘之后，假设读者也做了一些工作，并且知道tesseract使用了什么TESSDATA_PREFIX，下面是对我有用的步骤：

从： pdf.ttf下载pdf.ttf文件到目录$TESSDATA_PREFIX，并确保变量被导出到您的shell。
1. 提示:使用命令: tesseract -print-parameters#来发现您可以在自己的配置文件
2. 中使用的定义变量名，使用test.jp2文件转到dir，并用这些行创建文件配置。

tessedit_create_pdf 1写.pdf输出文件tessedit_create txt 1写.txt输出文件

(注意:或者您也可以将配置文件放在TESSDATA_PREFIX目录中，并让它始终是默认的。(未测试)

在dir中运行：

$ tesseract test.jp2 outputbase -l eng配置

验证您的成功:它运行并生成文件outputbase.txt和outputbase.pdf。txt文件看起来很好，可搜索的pdf在pdf查看器中看起来和工作正常，也就是说，您可以搜索并找到文本字符串。

希望这能帮到别人！

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59376972

复制

相似问题

问使用openjpeg2运行tesseract 4.1 -无法生成pdf输出
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用openjpeg2运行tesseract 4.1 -无法生成pdf输出EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用openjpeg2运行tesseract 4.1 -无法生成pdf输出
EN