首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >特斯拉定制词典

特斯拉定制词典
EN

Stack Overflow用户
提问于 2012-03-05 14:19:37
回答 1查看 12.6K关注 0票数 14

我目前正在为android开发一个使用Tesseract OCR的项目。我希望通过增加一本字典来微调给用户的结果。根据tesseract OCR wiki的说法,最好的方法就是

将tessdata/eng.user- word替换为您自己的单词列表,格式相同-- UTF8文本,每行一个单词。

但是tessdata文件夹中没有eng.user-word文件,我假设如果我只使用字典创建一个文本文件,它将永远不会被使用.

有没有人有过类似的经历,知道该怎么做?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-11-26 00:01:54

如果您使用的是tesseract 3 (我假设您正在使用)。您必须重建您的eng.trainddata文件。

我打算完全替换单词-dawg文件,以获得更好的结果(也就是说,我检测到的单词总是相同的)。

在编译tesseract时,需要在培训目录中使用combine_tessdatawordlist2dawg可执行文件。

  1. 打开所有东西(我这么做只是为了支持我的英语。need dawg,你以后也需要独角兽) ./combine_tessdata -u eng.traineddata
  2. 创建your列表的文本文件(wordlistfile)
  3. 创建eng.word-dawg ./wordlist2dawg wordlistfile eng.word-dawg traineddat_backup/.unicharset
  4. 替换word-dawg文件 ./combine_tessdata -o eng.traineddata eng.word-dawg

应该是这样的。

票数 12
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9568165

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档