首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用图像代替字体训练tesseract 4

用图像代替字体训练tesseract 4
EN

Stack Overflow用户
提问于 2018-06-28 10:07:58
回答 2查看 14.5K关注 0票数 12

关于如何为tesseract 4制作tiff/box文件,我有一些问题。在TrainingTesseract 4.00文档中:

用基本的Tesseract制作Box文件,可以选择从字体中绘制合成训练数据,还是标记一些已有的图像(例如,古代手稿)。

但它并没有解释如何使用现有的图像进行训练。

我想为波斯语进行第4课(lstm)的训练。我有一些来自古代手稿的图像,我想用图像和文字来训练,而不是字体。所以我不能使用text2image命令。我知道旧的格式框文件将不适用于LSTM培训。

  1. 我如何为tessearct4LSTM制作tif/box,然后给它们加上标签,以及如何更改tesseract命令?
  2. 我是否应该使用其他工具来生成框文件(考虑到波斯语是从右到左)?
  3. 我应该使用微调还是从头开始训练?
EN

回答 2

Stack Overflow用户

发布于 2018-08-23 12:58:39

我和你一样挣扎,直到我找到了这个github存储库:https://github.com/OCR-D/ocrd-train

这会让你的生活超级轻松。您所需要做的就是将您的图像设置为tif格式,并且您的文本应该具有扩展名.gt.txt的相同图像名。它会照顾好你剩下的一切。(您可能需要根据本地机器更新Makefile )

是从头开始训练还是微调取决于你自己的语言、数据和你想要解决的问题。对我来说,细微的调整是我所需要的,因为我对目前的表现很满意,但需要补充一下。

您可能需要的所有有用的细节都可以在这个回答中找到。

票数 9
EN

Stack Overflow用户

发布于 2020-01-24 11:56:32

1)使用下面的命令使lstmbox

代码语言:javascript
复制
tesseract test.tif test-lstmbox  -l eng --psm 6 lstmbox

它将为您制作一个lstmbox,但是您必须更正方框文件中的字符。

2)你需要足够的数据从零开始训练,所以我建议微调是更好的选择。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51080147

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档