我有一个现有的抓取公共记录网站的爬虫,蜘蛛工作得很好,但他们添加了一个验证码弹出窗口,打破了蜘蛛(原始程序员不可用)。
我正在尝试修改现有的爬行器来处理这个问题。
例如,来自:
http://publicindex.sccourts.org/mccormick/publicindex/
如果我点击Accept按钮,一个验证码表单就会弹出来。
我可以在浏览器中右键单击并保存图像,实际上我可以通过浮动在那里的decaptcha apis之一对其进行解码。但我对scrapy非常陌生,所以我需要一些帮助来了解如何提取图像并处理它。
我需要一些帮助:)
发布于 2013-09-10 18:11:43
应该使用xpath提取captcha的图像,如下所示
Hxs.select(“//div@class=‘验证码’/img@src”)
然后处理它。
上面是HtmlXPathSelector的例子,你也可以使用其他的。
有关更多信息,请访问http://doc.scrapy.org/en/0.18/topics/selectors.html
https://stackoverflow.com/questions/18673459
复制相似问题