关于如何为tesseract 4制作tiff/box文件,我有一些问题。在TrainingTesseract 4.00文档中:
用基本的Tesseract制作Box文件,可以选择从字体中绘制合成训练数据,还是标记一些已有的图像(例如,古代手稿)。
但它并没有解释如何使用现有的图像进行训练。
我想为波斯语进行第4课(lstm)的训练。我有一些来自古代手稿的图像,我想用图像和文字来训练,而不是字体。所以我不能使用text2image命令。我知道旧的格式框文件将不适用于LSTM培训。
发布于 2018-08-23 12:58:39
我和你一样挣扎,直到我找到了这个github存储库:https://github.com/OCR-D/ocrd-train
这会让你的生活超级轻松。您所需要做的就是将您的图像设置为tif格式,并且您的文本应该具有扩展名.gt.txt的相同图像名。它会照顾好你剩下的一切。(您可能需要根据本地机器更新Makefile )
是从头开始训练还是微调取决于你自己的语言、数据和你想要解决的问题。对我来说,细微的调整是我所需要的,因为我对目前的表现很满意,但需要补充一下。
您可能需要的所有有用的细节都可以在这个回答中找到。
发布于 2020-01-24 11:56:32
1)使用下面的命令使lstmbox
tesseract test.tif test-lstmbox -l eng --psm 6 lstmbox它将为您制作一个lstmbox,但是您必须更正方框文件中的字符。
2)你需要足够的数据从零开始训练,所以我建议微调是更好的选择。
https://stackoverflow.com/questions/51080147
复制相似问题