文章/答案/技术大牛

发布

社区首页 >问答首页 >如何告诉抓取爬虫停止动态跟踪更多的链接？

问如何告诉抓取爬虫停止动态跟踪更多的链接？
EN

Stack Overflow用户

提问于 2015-07-22 14:03:01

回答 3查看 473关注 0票数 1

基本上，我对在页面后面有一个正则表达式

每页有50个链接

当我点击一个太老的链接(基于预定义的日期-时间)

我想告诉scrapy停止跟踪更多的页面，但不是完全停止它，它必须继续刮掉它已经决定刮掉-> (完成创建的所有Request对象)的链接。只是它不能跟随任何更多的链接。所以这个程序最终会停止运行(当它完成了所有的链接)

我能在蜘蛛里面做这个吗？

python

scrapy

回答 3

Stack Overflow用户

回答已采纳

发布于 2015-07-23 14:39:48

Scrapy的CrawlSpider有一个内部的_follow_links成员变量，这个变量还没有文档化(目前是实验性的)

设置self._follow_links = False将告诉scrapy停止跟踪更多的链接。但是继续完成它已经创建的所有Request对象。

票数 0

Stack Overflow用户

发布于 2015-07-22 14:04:42

一旦点击了“太旧”页面，就会抛出CloseSpider异常。在这种情况下，Scrapy将完成正在计划的链接处理，然后关闭。

票数 0

Stack Overflow用户

发布于 2017-08-29 06:36:40

从回调引发CloseSpider异常。

def parse_page(self, response):
if 'Bandwidth exceeded' in response.body:
    raise CloseSpider('bandwidth_exceeded')

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31565422

复制

相似问题

问如何告诉抓取爬虫停止动态跟踪更多的链接？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何告诉抓取爬虫停止动态跟踪更多的链接？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何告诉抓取爬虫停止动态跟踪更多的链接？
EN