我在linux上运行tesseract-ocr引擎时遇到了问题。我下载了RUS语言数据并将其放到tessdata目录(/usr/local/share/tessdata)。当我试图使用命令tesseract blob.jpg out -l rus运行tesseract时,它会显示一个错误:
Error opening data file /usr/local/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language eng
Tesseract couldn't load any languages!
Could not initialize tesseract.根据compiling guide,我使用export TESSDATA_PREFIX='/usr/local/share/'来指向tessdata目录。也许我应该编辑任何配置文件?Tesseract试图加载'eng‘数据文件而不是'rus’。
截图:http://i.stack.imgur.com/I0Guc.png
发布于 2014-04-02 04:58:28
你可以抓住eng.traineddata:
wget https://github.com/tesseract-ocr/tessdata/raw/main/eng.traineddata检查https://github.com/tesseract-ocr/tessdata以获得经过培训的语言数据的完整列表。
抓取文件时,将它们移动到/usr/local/share/tessdata文件夹。警告:一些Linux发行版(如openSUSE和Ubuntu)可能会在/usr/share/tessdata中使用它。
# If you got the data from Google, unzip it first!
gunzip eng.traineddata.gz
# Move the data
sudo mv -v eng.traineddata /usr/local/share/tessdata/发布于 2016-03-30 12:49:12
最简单的方法是安装所需的软件包:
sudo apt-get install tesseract-ocr-eng #for english
sudo apt-get install tesseract-ocr-tam #for tamil
sudo apt-get install tesseract-ocr-deu #for deutsch (German)您可以注意到,它为其他语言(即tesseract-ocr)开辟了道路。
发布于 2017-09-10 20:15:29
我在Windows机器上也有这个错误。
我的解决方案。
1)从https://github.com/tesseract-ocr/tessdata/tree/3.04.00下载语言文件
例如,对于eng,我下载了所有带有eng前缀的文件。
2)将它们放入某个文件夹内的tessdata目录中。将此文件夹作为TESSDATA_PREFIX添加到系统路径变量中。
结果将是System : TESSDATA_PREFIX=D:/Java/OCR,OCR文件夹具有带有语言文件的tessdata。
这是目录的屏幕截图:

https://stackoverflow.com/questions/14800730
复制相似问题