我有一个关于tesseract训练的问题。我目前正在使用Tess4J,以便将tesseract集成到我的java程序中。在tesseract训练(http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3)的tesseract维基页面上,人们能够使用具有各种组合和字体的训练图像来训练tesseract。
我有没有可能只有一个“普通的”tesseract 3.02 (windows或unix)安装来构造这些lang.traineddata文件,然后将它包含在我的tessdata文件夹中,由我的java程序中的Tess4J包装器使用。或者Tess4J仅限于包含英语的语言数据,以及与程序捆绑在一起的示例图像?
如果是这样的话,是否可以以其他方式将它们包含到我的Tess4J构建中?
发布于 2012-09-09 05:33:04
由于它只是Tesseract OCR引擎的包装器,它接受任何标准问题或自定义训练数据文件。你可以在https://github.com/tesseract-ocr/tessdata上找到标准的训练数据。
https://stackoverflow.com/questions/12251811
复制相似问题