

昨天有同学问我 登录中的图形验证码怎么识别解决, 我当时给他回复用pytesseract 或paddleocr 来实现。 估计一些同学对百度开源的paddleocr 不感冒,那这篇文章我就以pytesseract举例好了。
上午陪小朋友玩了盘大富翁游戏,看了下游戏说明,要不就用这个图片识别写个例子。
大家都知道,爬取很多网站数据,基本需要登录。 而登录要用到图形验证码,那图形验证码识别不得不面对。
如果你舍得花钱, 完全可以去 阿里云、腾讯云等等采购他们的API服务。如果你不想花钱,那就自己捣鼓下呗。
进入正题:
pytesseract开源项目: https://github.com/madmaze/pytesseract
这里我用mac M2举例,
1、brew install tesseract
2、brew install tesseract-ocr
3、pip3 install pytesseract
写一个例子
from PIL import Image
from pytesseract import *
image = Image.open('dafuweng.jpg')
#识别过程
text = image_to_string(image,lang='chi_sim')
print(text)提示中文不支持,比如路径找不到
/opt/homebrew/share/tessdata/chi_sim.traineddata
那就继续执行命令
wget -O /opt/homebrew/share/tessdata/chi_sim.traineddata https://github.com/tesseract-ocr/tessdata/raw/main/chi_sim.traineddata
如果提示没权限,增加sudo即可。继续执行, 图片识别出来。如上图所示。 windows、linux 类似。
题外话:
玩大富翁这款游戏,发现这款游戏和我们投资类似。 我们一定要前期做好资产积累, 买资产抢占地盘, 留点闲钱进行日常开支, 不然你用别人什么东西都要过路费、XX费。
还要有几分运气 , 碰到天上掉的机会一定要抓住。
另外要有风险意识,不然可能有破产的风险。
其实最初打算写的文章不是这个, 昨天晚上写了个通过竞价涨停判断当天的概念板块发酵方向的例子, 后面想了想貌似不适合网络公开,就放在知识星球里,风险可控。