文章/答案/技术大牛

发布

社区首页 >问答首页 >修改现有的爬虫网站实现了验证码--如何获取弹出的图像进行解码并继续？

问修改现有的爬虫网站实现了验证码--如何获取弹出的图像进行解码并继续？
EN

Stack Overflow用户

提问于 2013-09-07 20:47:15

回答 1查看 901关注 0票数 0

我有一个现有的抓取公共记录网站的爬虫，蜘蛛工作得很好，但他们添加了一个验证码弹出窗口，打破了蜘蛛(原始程序员不可用)。

我正在尝试修改现有的爬行器来处理这个问题。

例如，来自：

http://publicindex.sccourts.org/mccormick/publicindex/

如果我点击Accept按钮，一个验证码表单就会弹出来。

我可以在浏览器中右键单击并保存图像，实际上我可以通过浮动在那里的decaptcha apis之一对其进行解码。但我对scrapy非常陌生，所以我需要一些帮助来了解如何提取图像并处理它。

我需要一些帮助:)

python

scrapy

captcha

web-crawler

回答 1

Stack Overflow用户

发布于 2013-09-10 18:11:43

应该使用xpath提取captcha的图像，如下所示

Hxs.select(“//div@class=‘验证码’/img@src”)

然后处理它。

上面是HtmlXPathSelector的例子，你也可以使用其他的。

有关更多信息，请访问http://doc.scrapy.org/en/0.18/topics/selectors.html

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/18673459

复制

相似问题

问修改现有的爬虫网站实现了验证码--如何获取弹出的图像进行解码并继续？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问修改现有的爬虫网站实现了验证码--如何获取弹出的图像进行解码并继续？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问修改现有的爬虫网站实现了验证码--如何获取弹出的图像进行解码并继续？
EN