首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么使用pytesseract从图像中读取文本不起作用?

为什么使用pytesseract从图像中读取文本不起作用?
EN

Stack Overflow用户
提问于 2020-09-19 17:15:24
回答 1查看 44关注 0票数 0

下面是我的代码:

代码语言:javascript
复制
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'F:\Installations\tesseract'
print(pytesseract.image_to_string('images/meme1.png', lang='eng'))

下面是图片:

输出结果如下:

代码语言:javascript
复制
GP.
ed <a

= va
ay Roce Thee .
‘ , Pe ship
   
RCAC Tm alesy-3

Pein Reg a

years —
? >
ee bs

我在输出中看到单词years,所以它可以识别文本,但是为什么它不能完全识别文本呢?

EN

回答 1

Stack Overflow用户

发布于 2020-09-19 17:25:31

在杂乱的场景中,OCR仍然是一个非常困难的问题。如果不对图像做一些预处理,你可能不会得到更好的结果。在这种特定情况下,首先对图像进行阈值处理,以便只提取白色区域(即文本)是有意义的。您可以在opencv中查找以下内容:https://docs.opencv.org/3.4/d7/d4d/tutorial_py_thresholding.html

此外,在您的图像中,任意位置上只有两行文本,因此使用页面分割模式可能很有意义:https://github.com/tesseract-ocr/tesseract/issues/434

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63967136

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档