首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >scrapy避免爬虫注销

scrapy避免爬虫注销
EN

Stack Overflow用户
提问于 2013-07-11 10:05:02
回答 1查看 501关注 0票数 1

我正在使用scrapy库来方便抓取网站。

网站使用身份验证,我可以使用scrapy成功登录页面。

该页面有一个URL,该URL将注销用户并销毁会话。

如何确保scrapy在爬行时避免注销页面?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-07-11 13:11:02

如果您正在使用Link Extractors,并且不想使用此特定的“注销”链接,则可以设置deny属性:

代码语言:javascript
复制
rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),]

另一种选择是检查爬行器的parse方法中的response.url

代码语言:javascript
复制
def parse(self, response):
    if 'logout' in response.url:
        return

    # extract items

希望这能有所帮助。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/17583907

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档