首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Tesseract Ocr Engine Cube模式-训练Tesseract

Tesseract Ocr Engine Cube模式-训练Tesseract
EN

Stack Overflow用户
提问于 2013-05-16 22:32:03
回答 3查看 16.6K关注 0票数 6

你能给我解释一下Tesseract ocr引擎上的立方体模式和立方体数据文件是什么吗?使用它们有什么好处?

如何才能训练希腊语的tesseract以获得更好的结果呢?

EN

回答 3

Stack Overflow用户

发布于 2013-11-21 21:05:01

对于那些可能仍然感兴趣的人。在Tesseract的网站上,有不同文件的标准训练数据集。

https://code.google.com/p/tesseract-ocr/downloads/list?num=100&start=100

此处描述了培训程序(适用于版本3.01)

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

在Cube的情况下,与Tesseract相比,有另一个引擎。它消耗了更多的资源,速度更慢,但效果更好。

数据文件-set文件,最终应该引导(合并到)到训练的数据文件。

票数 6
EN

Stack Overflow用户

发布于 2014-05-19 17:49:26

在tesseract-ocr-extradocs项目wiki上有多维数据集引擎模式所需的各种培训文件的说明:

https://code.google.com/p/tesseract-ocr-extradocs/wiki/Cube

在那里,您可以找到有关如何在多维数据集模式下创建培训所需文件的详细(但不完整)信息。还有一些关于神经网络文件格式的信息可能会很有用:

https://code.google.com/p/tesseract-ocr-extradocs/wiki/nnFileFormat

立方体模式通常会通过使用神经网络而不是自适应分类器来为您提供更好的识别结果。

我从来没有自己创建过Cube训练文件,所以我不能为您提供有关如何创建这些文件的更多详细信息。

票数 3
EN

Stack Overflow用户

发布于 2018-06-20 23:02:52

对于Tesseract 4+ (使用LSTM)

我不完全确定多维数据集模式,但使用--oem 1,您可以启用新的LSTM引擎,并利用以下解决方案:

  • 使用现有模型

我建议使用Tesseract GitHub repo上提供的预先训练好的模型。他们有各种各样的语言(看起来也支持希腊语!)

  • 自己训练它

我自己还没有试过这个,但是relevant Wiki on GitHub看起来很结实。

tl-dr

  • git clone git@github.com:tesseract-ocr/tessdata.git
  • Select所需的语言文件
  • 将其移动到项目的tessdata目录

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16590259

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档