首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >修改现有的爬虫网站实现了验证码--如何获取弹出的图像进行解码并继续?

修改现有的爬虫网站实现了验证码--如何获取弹出的图像进行解码并继续?
EN

Stack Overflow用户
提问于 2013-09-07 20:47:15
回答 1查看 901关注 0票数 0

我有一个现有的抓取公共记录网站的爬虫,蜘蛛工作得很好,但他们添加了一个验证码弹出窗口,打破了蜘蛛(原始程序员不可用)。

我正在尝试修改现有的爬行器来处理这个问题。

例如,来自:

http://publicindex.sccourts.org/mccormick/publicindex/

如果我点击Accept按钮,一个验证码表单就会弹出来。

我可以在浏览器中右键单击并保存图像,实际上我可以通过浮动在那里的decaptcha apis之一对其进行解码。但我对scrapy非常陌生,所以我需要一些帮助来了解如何提取图像并处理它。

我需要一些帮助:)

EN

回答 1

Stack Overflow用户

发布于 2013-09-10 18:11:43

应该使用xpath提取captcha的图像,如下所示

Hxs.select(“//div@class=‘验证码’/img@src”)

然后处理它。

上面是HtmlXPathSelector的例子,你也可以使用其他的。

有关更多信息,请访问http://doc.scrapy.org/en/0.18/topics/selectors.html

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18673459

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档