我使用tesseract批量将图像列表转换为可搜索的PDF以及包含OCRd文本的TXT文件。
tesseract infile outfile -l eng myconfig这给我留下了outfile.pdf和outfile.txt,后者包含用于分隔图像之间文本的页面分隔符。
然而,我真正想要做的是在每个映像的基础上输出多个TXT文件,使用相同的图像名称。比如Image1.jpg.txt,Image2.jpg.txt,Image3.jpg.txt.
tesseract是否可以选择本地支持这种行为?我意识到我可以循环遍历图像文件列表并在每个映像的基础上执行tesseract,但是这并不理想,因为我还必须再次运行tesseract来生成合并的PDF。相反,我希望同时运行这两个选项,同时减少总体执行时间。
我还意识到我可以将页面分隔符上合并的TXT文件拆分成多个文本文件,但是我必须引入不那么优雅的代码来映射和重命名所有这些拆分的文件,以对应它们的原始图像名称:重命名0001.txt到Image1.jpg.txt.
我正在使用Python 3和Linux命令。
发布于 2019-08-03 17:27:22
由于Tesseract似乎没有本机处理这个问题,所以我刚刚开发了一个函数,将页面分隔符上的合并TXT文件拆分为多个文本文件。尽管从我的观察来看,我不确定Tesseract通过同时将批处理映像转换为PDF和TXT是否运行得更快(相对于运行两次--一次用于PDF,一次针对TXT)。
发布于 2019-08-06 20:03:27
您可以准备一个批处理文件,它同时遍历输入图像并输出到txt和pdf --更有效,一个OCR操作而不是两个OCR操作。然后,可以将输出.txt文件拆分为页面。
tesseract inimagefile outfile txt pdf
发布于 2020-03-11 13:53:29
谢谢!
顺便说一下,我用的是4.1.1。
我还发现了另一个西班牙语培训数据,它比标准语言做得更好。实际上能很好地识别出"o“字。唯一的问题是处理时间,但我让个人电脑通宵工作。
老实说,我不知道新的培训数据文件如何做得更好。我没有在:best下载
https://stackoverflow.com/questions/57301142
复制相似问题