我目前正在为android开发一个使用Tesseract OCR的项目。我希望通过增加一本字典来微调给用户的结果。根据tesseract OCR wiki的说法,最好的方法就是
将tessdata/eng.user- word替换为您自己的单词列表,格式相同-- UTF8文本,每行一个单词。
但是tessdata文件夹中没有eng.user-word文件,我假设如果我只使用字典创建一个文本文件,它将永远不会被使用.
有没有人有过类似的经历,知道该怎么做?
发布于 2012-11-26 00:01:54
如果您使用的是tesseract 3 (我假设您正在使用)。您必须重建您的eng.trainddata文件。
我打算完全替换单词-dawg文件,以获得更好的结果(也就是说,我检测到的单词总是相同的)。
在编译tesseract时,需要在培训目录中使用combine_tessdata和wordlist2dawg可执行文件。
./combine_tessdata -u eng.traineddata./wordlist2dawg wordlistfile eng.word-dawg traineddat_backup/.unicharset./combine_tessdata -o eng.traineddata eng.word-dawg应该是这样的。
https://stackoverflow.com/questions/9568165
复制相似问题