我对Tesseract OCR还很陌生,在我的脚本中使用它之后,我注意到对于我试图从中提取文本的图像,它有一个相对较大的错误率。我遇到了Tesseract训练,它应该能够降低你所使用的特定字体的错误率。我偶然发现了一个网站(http://ocr7.com/),这是一个由Anyline提供支持的工具,可以为你指定的字体做所有的训练。所以我收到了一个.traineddata文件,但我不太确定该如何处理它。谁能解释一下我必须对这个文件做些什么才能使它工作?或者我应该学习如何通过手动方式进行Tesseract训练,根据Anyline网站的说法,这可能需要一天的工作。提前谢谢。
发布于 2016-12-27 09:41:54
对于任何想要阅读这篇文章的人来说,你可以使用这个工具来获得你想要的任何字体的训练数据文件。之后,移动tessdata文件夹中的traineddata数据文件。在Python或任何其他语言中使用带有新字体的tesseract (我想?)在image_to_string函数中将lang = "Font"作为第二个参数。它显着提高了准确性,但当然也会出错。或者你可以通过这个指南来学习如何手动训练一种新字体的tesseract:http://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-characters-recognition/。
发布于 2019-06-10 12:07:39
我制作了一个视频教程,解释了最新版本的Tesseract ( LSTM模型)的过程,希望它能有所帮助。https://www.youtube.com/watch?v=TpD76k2HYms
发布于 2019-03-13 14:09:17
如果你想用新字体训练tesseract,那么就用你想要的字体生成.traineddata文件。要生成.traineddata,首先需要.tiff文件和.box文件。您可以使用jTessBoxEditor创建这些文件。适用于jBossTextEditor的教程是here。在制作.tiff文件时,你可以设置你训练测试集所使用的字体。您可以使用jTessBoxEditor生成.traineddata,也可以使用serak-tesseract-trainer。我已经使用了这两种方法,我想说的是,对于生成tiff和box文件,jTessBoxEditor是很好的选择,而对于训练tesseract,则使用serak。
https://stackoverflow.com/questions/41295527
复制相似问题