你能给我解释一下Tesseract ocr引擎上的立方体模式和立方体数据文件是什么吗?使用它们有什么好处?
如何才能训练希腊语的tesseract以获得更好的结果呢?
发布于 2013-11-21 21:05:01
对于那些可能仍然感兴趣的人。在Tesseract的网站上,有不同文件的标准训练数据集。
https://code.google.com/p/tesseract-ocr/downloads/list?num=100&start=100
此处描述了培训程序(适用于版本3.01)
https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3
在Cube的情况下,与Tesseract相比,有另一个引擎。它消耗了更多的资源,速度更慢,但效果更好。
数据文件-set文件,最终应该引导(合并到)到训练的数据文件。
发布于 2014-05-19 17:49:26
在tesseract-ocr-extradocs项目wiki上有多维数据集引擎模式所需的各种培训文件的说明:
https://code.google.com/p/tesseract-ocr-extradocs/wiki/Cube
在那里,您可以找到有关如何在多维数据集模式下创建培训所需文件的详细(但不完整)信息。还有一些关于神经网络文件格式的信息可能会很有用:
https://code.google.com/p/tesseract-ocr-extradocs/wiki/nnFileFormat
立方体模式通常会通过使用神经网络而不是自适应分类器来为您提供更好的识别结果。
我从来没有自己创建过Cube训练文件,所以我不能为您提供有关如何创建这些文件的更多详细信息。
发布于 2018-06-20 23:02:52
对于Tesseract 4+ (使用LSTM)
我不完全确定多维数据集模式,但使用--oem 1,您可以启用新的LSTM引擎,并利用以下解决方案:
我建议使用Tesseract GitHub repo上提供的预先训练好的模型。他们有各种各样的语言(看起来也支持希腊语!)
我自己还没有试过这个,但是relevant Wiki on GitHub看起来很结实。
tl-dr
git clone git@github.com:tesseract-ocr/tessdata.git中
https://stackoverflow.com/questions/16590259
复制相似问题