首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >[Python技术] 利用pytesseract进行OCR图像识别例子和实现步骤

[Python技术] 利用pytesseract进行OCR图像识别例子和实现步骤

作者头像
子晓聊技术
发布2026-04-23 14:24:59
发布2026-04-23 14:24:59
800
举报
文章被收录于专栏:子晓AI量化子晓AI量化

昨天有同学问我 登录中的图形验证码怎么识别解决, 我当时给他回复用pytesseract 或paddleocr 来实现。 估计一些同学对百度开源的paddleocr 不感冒,那这篇文章我就以pytesseract举例好了。

上午陪小朋友玩了盘大富翁游戏,看了下游戏说明,要不就用这个图片识别写个例子。

大家都知道,爬取很多网站数据,基本需要登录。 而登录要用到图形验证码,那图形验证码识别不得不面对。

如果你舍得花钱, 完全可以去 阿里云、腾讯云等等采购他们的API服务。如果你不想花钱,那就自己捣鼓下呗。

进入正题:

pytesseract开源项目: https://github.com/madmaze/pytesseract

这里我用mac M2举例,

1、brew install tesseract

2、brew install tesseract-ocr

3、pip3 install pytesseract

写一个例子

代码语言:javascript
复制
from PIL import Image
from pytesseract import *
image = Image.open('dafuweng.jpg')
#识别过程
text = image_to_string(image,lang='chi_sim')
print(text)

提示中文不支持,比如路径找不到

/opt/homebrew/share/tessdata/chi_sim.traineddata

那就继续执行命令

wget -O /opt/homebrew/share/tessdata/chi_sim.traineddata https://github.com/tesseract-ocr/tessdata/raw/main/chi_sim.traineddata

如果提示没权限,增加sudo即可。继续执行, 图片识别出来。如上图所示。 windows、linux 类似。

题外话:

玩大富翁这款游戏,发现这款游戏和我们投资类似。 我们一定要前期做好资产积累, 买资产抢占地盘, 留点闲钱进行日常开支, 不然你用别人什么东西都要过路费、XX费。

还要有几分运气 , 碰到天上掉的机会一定要抓住。

另外要有风险意识,不然可能有破产的风险。

其实最初打算写的文章不是这个, 昨天晚上写了个通过竞价涨停判断当天的概念板块发酵方向的例子, 后面想了想貌似不适合网络公开,就放在知识星球里,风险可控。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 子晓聊技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档