文章/答案/技术大牛

发布

社区首页 >问答首页 >Tesseract批处理将图像转换为可搜索的PDF和多个相应的文本文件

问Tesseract批处理将图像转换为可搜索的PDF和多个相应的文本文件
EN

Stack Overflow用户

提问于 2019-08-01 02:36:15

回答 3查看 3.7K关注 0票数 0

我使用tesseract批量将图像列表转换为可搜索的PDF以及包含OCRd文本的TXT文件。

tesseract infile outfile -l eng myconfig

infile包含要处理的图像路径列表。
myconfig包含tesseract首选项以指定输出类型(tessedit_create_text 1和tessedit_create_pdf 1)

这给我留下了outfile.pdf和outfile.txt，后者包含用于分隔图像之间文本的页面分隔符。

然而，我真正想要做的是在每个映像的基础上输出多个TXT文件，使用相同的图像名称。比如Image1.jpg.txt，Image2.jpg.txt，Image3.jpg.txt.

tesseract是否可以选择本地支持这种行为？我意识到我可以循环遍历图像文件列表并在每个映像的基础上执行tesseract，但是这并不理想，因为我还必须再次运行tesseract来生成合并的PDF。相反，我希望同时运行这两个选项，同时减少总体执行时间。

我还意识到我可以将页面分隔符上合并的TXT文件拆分成多个文本文件，但是我必须引入不那么优雅的代码来映射和重命名所有这些拆分的文件，以对应它们的原始图像名称:重命名0001.txt到Image1.jpg.txt.

我正在使用Python 3和Linux命令。

linux

python-3.x

ocr

tesseract

回答 3

Stack Overflow用户

回答已采纳

发布于 2019-08-03 17:27:22

由于Tesseract似乎没有本机处理这个问题，所以我刚刚开发了一个函数，将页面分隔符上的合并TXT文件拆分为多个文本文件。尽管从我的观察来看，我不确定Tesseract通过同时将批处理映像转换为PDF和TXT是否运行得更快(相对于运行两次--一次用于PDF，一次针对TXT)。

票数 0

Stack Overflow用户

发布于 2019-08-06 20:03:27

您可以准备一个批处理文件，它同时遍历输入图像并输出到txt和pdf --更有效，一个OCR操作而不是两个OCR操作。然后，可以将输出.txt文件拆分为页面。

tesseract inimagefile outfile txt pdf

票数 1

Stack Overflow用户

发布于 2020-03-11 13:53:29

谢谢!

顺便说一下，我用的是4.1.1。

我还发现了另一个西班牙语培训数据，它比标准语言做得更好。实际上能很好地识别出"o“字。唯一的问题是处理时间，但我让个人电脑通宵工作。

老实说，我不知道新的培训数据文件如何做得更好。我没有在：best下载

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57301142

复制

相似问题

问Tesseract批处理将图像转换为可搜索的PDF和多个相应的文本文件
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Tesseract批处理将图像转换为可搜索的PDF和多个相应的文本文件EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Tesseract批处理将图像转换为可搜索的PDF和多个相应的文本文件
EN