我有一个拥有大约1000个文件的大量gt.txt和tiff文件的数据集,我尝试使用tesstrain项目并运行下面的命令make training MODEL_NAME=cmc7 MODEL_NAME=cmc7--这个命令成功地运行了,但是当我尝试使用培训数据时,它并不像预期的那样工作。我的问题是,什么是正确的形式来训练我的数据集的tesseract?谢谢。
发布于 2020-08-29 23:23:28
为了用图像训练数据集,我使用两种类型的文件对图像进行校正:
来训练模型
我将所有3个文件放置在tesstrain /data/my-model-接地- the中,并从tesstra设文件夹中运行以下命令:
make training MODEL_NAME=my-model START_MODEL=eng TESSDATA=../tessdata_best这是假设您想要在eng.traineddata的基础上从tessdata_best存储库中进行培训:https://github.com/tesseract-ocr/tessdata_best
生成my. That的命令/数据文件夹。
https://stackoverflow.com/questions/63640134
复制相似问题