我已经安装在我的RedHat机器上:
(py36_maw) [rvp@lib-archcoll box]$ tesseract -v
tesseract 4.1.0
leptonica-1.78.0
libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libopenjp2 2.3.1
Found SSE我试图运行,根据我能找到的文档,生成pdf输出:
(py36_maw) [rvp@lib-archcoll box]$ time tesseract test.jp2 out -l eng PDF
read_params_file: Can't open PDF
Tesseract Open Source OCR Engine v4.1.0 with Leptonica
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 275这需要10秒,并产生文件out.txt与精细的OCR到文本转换明显。
但是,它试图读取一个名为PDF的文件,但我不知道如何获得PDF输出。
我读过各种文档,其中最有希望的似乎是建议编辑配置文件,但我能猜到的唯一文档是相关的,我可以在googling上搜索'tesseract 4.1 config',列出较早版本的tesseract的许多“config”变量名,但似乎没有任何一个文档表明我可以指定生成pdf输出,尤其是对tesseract 4.1。
如何通过CLI调用tesseract 4.1 (使用libopenjp2 2.3.1)从我的jp2输入文件中生成pdf输出?额外的问题:如何让它在一次运行中同时产生txt和pdf输出?
罗伯特
发布于 2019-12-17 21:54:24
在进行了更多的浏览和挖掘之后,假设读者也做了一些工作,并且知道tesseract使用了什么TESSDATA_PREFIX,下面是对我有用的步骤:
tessedit_create_pdf 1写.pdf输出文件tessedit_create txt 1写.txt输出文件
(注意:或者您也可以将配置文件放在TESSDATA_PREFIX目录中,并让它始终是默认的。(未测试)
$ tesseract test.jp2 outputbase -l eng配置
希望这能帮到别人!
https://stackoverflow.com/questions/59376972
复制相似问题