问scrapy避免爬虫注销
EN

Stack Overflow用户

提问于 2013-07-11 10:05:02

回答 1查看 501关注 0票数 1

我正在使用scrapy库来方便抓取网站。

网站使用身份验证，我可以使用scrapy成功登录页面。

该页面有一个URL，该URL将注销用户并销毁会话。

如何确保scrapy在爬行时避免注销页面？

回答已采纳

发布于 2013-07-11 13:11:02

如果您正在使用Link Extractors，并且不想使用此特定的“注销”链接，则可以设置deny属性：

rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),]

另一种选择是检查爬行器的parse方法中的response.url：

def parse(self, response):
    if 'logout' in response.url:
        return

    # extract items

希望这能有所帮助。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/17583907

复制

相似问题

问scrapy避免爬虫注销EN