问针对大量请求的刮擦模式
EN

Stack Overflow用户

提问于 2016-05-02 03:42:17

回答 1查看 283关注 0票数 0

我需要刮大的网站，大约有10个类别和数千(我真的不知道多少)的文章在每个类别。最简单的方法是为每个类别创建一个蜘蛛，并为每个下一篇文章链接创建一个yield响应以进行进一步提取。

我想的是制作一个顶级蜘蛛，它可以从类别中提取文章urls到队列中。然后，第二级(文章)蜘蛛应该从队列中接收每一个固定数量的urls (比如100个)，并且当蜘蛛完成时，另一个urls将被启动。以这种方式，我们可以控制很多蜘蛛，这是一个常数，比如说20b)我们可以选择预先计算文章的数量，c)蜘蛛的内存使用量有限。在以前的一个项目中，类似的效果很好。

这有意义吗?或者你可以从一只蜘蛛发出尽可能多的请求，这样就能正常工作了吗？

scrapy

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-05-02 12:49:11

你可以向一只蜘蛛发出尽可能多的请求。

这是因为scrapy不是一次处理所有的请求，它们都是排队的。

您可以用CONCURRENT_REQUESTS更改要在设置上处理的请求数，如果内存使用太高(比如100)，这确实会导致内存使用问题。请记住，默认情况下，每个作业设置512 job内存。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36974680

复制

相似问题

问针对大量请求的刮擦模式
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问针对大量请求的刮擦模式EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问针对大量请求的刮擦模式
EN