首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么我在Tesseract中收到"tiff Page1 not found“Lebtonica警告?

为什么我在Tesseract中收到"tiff Page1 not found“Lebtonica警告?
EN

Stack Overflow用户
提问于 2015-10-22 18:56:58
回答 1查看 1.4K关注 0票数 15

我刚开始使用Tesseract

我正在按照here描述的说明进行操作。

我已经创建了一个测试镜像,如下所示:

代码语言:javascript
复制
training/text2image --text=test.txt --outputbase=eng.Arial.exp0 --font='Arial' --fonts_dir=/usr/share/fonts

现在我想像下面这样训练Tesseract:

代码语言:javascript
复制
tesseract eng.Arial.exp0.tif eng.Arial.exp0 box.train

下面是我得到的输出:

代码语言:javascript
复制
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Page 1
APPLY_BOXES:
   Boxes read from boxfile:     112
   Found 112 good blobs.
Generated training data for 21 words
Warning in pixReadMemTiff: tiff page 1 not found

这会阻止创建fontfile.tr文件。我尝试忽略警告继续,但在创建char- get时,我得到了一个令人敬畏的内容:

代码语言:javascript
复制
unicharset_extractor lang.fontname.exp0.box

"58
NULL 0 NULL 0
Joined 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0     # Joined [4a 6f 69 6e 65 64 ]
|Broken|0|1 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0    # Broken
T 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0  # T [54 ]
h 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0  # h [68 ]
e 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0  # e [65 ]
( 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0  # ( [28 ]
q 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0  # q [71 ]
u 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0  # u [75 ]
..."

下面是我使用的版本:

代码语言:javascript
复制
tesseract 3.04.00
 leptonica-1.72
  libjpeg 8d (libjpeg-turbo 1.3.0) : libpng 1.2.50 : libtiff 4.0.3 : zlib 1.2.8

知道为什么会这样吗?

EN

回答 1

Stack Overflow用户

发布于 2018-04-02 18:00:40

这可能是一个bug,我使用的是v4.00.00alpha,我得到

代码语言:javascript
复制
Tesseract Open Source OCR Engine v4.00.00alpha with Leptonica
Page 1
APPLY_BOXES:
   Boxes read from boxfile:     100
   Found 100 good blobs.
Generated training data for 21 words
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33279374

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档