我正在使用scrapy库来方便抓取网站。
网站使用身份验证,我可以使用scrapy成功登录页面。
该页面有一个URL,该URL将注销用户并销毁会话。
如何确保scrapy在爬行时避免注销页面?
发布于 2013-07-11 13:11:02
如果您正在使用Link Extractors,并且不想使用此特定的“注销”链接,则可以设置deny属性:
rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),]另一种选择是检查爬行器的parse方法中的response.url:
def parse(self, response):
if 'logout' in response.url:
return
# extract items希望这能有所帮助。
https://stackoverflow.com/questions/17583907
复制相似问题