首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Tesseract运行错误

Tesseract运行错误
EN

Stack Overflow用户
提问于 2013-02-10 17:53:15
回答 19查看 174.5K关注 0票数 114

我在linux上运行tesseract-ocr引擎时遇到了问题。我下载了RUS语言数据并将其放到tessdata目录(/usr/local/share/tessdata)。当我试图使用命令tesseract blob.jpg out -l rus运行tesseract时,它会显示一个错误:

代码语言:javascript
复制
Error opening data file /usr/local/share/tessdata/eng.traineddata

Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.

Failed loading language eng
Tesseract couldn't load any languages!

Could not initialize tesseract.

根据compiling guide,我使用export TESSDATA_PREFIX='/usr/local/share/'来指向tessdata目录。也许我应该编辑任何配置文件?Tesseract试图加载'eng‘数据文件而不是'rus’。

截图:http://i.stack.imgur.com/I0Guc.png

EN

回答 19

Stack Overflow用户

发布于 2014-04-02 04:58:28

你可以抓住eng.traineddata

代码语言:javascript
复制
wget https://github.com/tesseract-ocr/tessdata/raw/main/eng.traineddata

检查https://github.com/tesseract-ocr/tessdata以获得经过培训的语言数据的完整列表。

抓取文件时,将它们移动到/usr/local/share/tessdata文件夹。警告:一些Linux发行版(如openSUSE和Ubuntu)可能会在/usr/share/tessdata中使用它。

代码语言:javascript
复制
# If you got the data from Google, unzip it first!
gunzip eng.traineddata.gz 
# Move the data
sudo mv -v eng.traineddata /usr/local/share/tessdata/
票数 117
EN

Stack Overflow用户

发布于 2016-03-30 12:49:12

最简单的方法是安装所需的软件包:

代码语言:javascript
复制
sudo apt-get install tesseract-ocr-eng  #for english
sudo apt-get install tesseract-ocr-tam  #for tamil
sudo apt-get install tesseract-ocr-deu  #for deutsch (German)

您可以注意到,它为其他语言(即tesseract-ocr)开辟了道路。

票数 91
EN

Stack Overflow用户

发布于 2017-09-10 20:15:29

我在Windows机器上也有这个错误。

我的解决方案。

1)从https://github.com/tesseract-ocr/tessdata/tree/3.04.00下载语言文件

例如,对于eng,我下载了所有带有eng前缀的文件。

2)将它们放入某个文件夹内的tessdata目录中。将此文件夹作为TESSDATA_PREFIX添加到系统路径变量中。

结果将是System : TESSDATA_PREFIX=D:/Java/OCR,OCR文件夹具有带有语言文件的tessdata。

这是目录的屏幕截图:

票数 40
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14800730

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档