问如何在使用scrapy解析时尽量减少服务器负载?/如何忽略<body>并仅解析来自<head>的信息
EN

Stack Overflow用户

提问于 2019-06-30 12:58:54

回答 1查看 55关注 0票数 0

我收集统计数据，我需要的所有信息都在站点的<head> (脚本标记)中。

它有大量的<body>(大约每页5-10 kb )，所以我不能在服务器负载较少的情况下解析它吗？

如果您推荐替代优化以减少服务器负载，我将非常高兴。

settings.py

CONCURRENT_REQUESTS = 32 DOWNLOAD_DELAY = 0.33现在速度为180/min(有时为200)

回答已采纳

发布于 2019-06-30 20:41:50

刮伤只对整个反应体起作用。这种行为编码在刮伤的核心。

CONCURRENCY_REQUEST = 32

Scrapy没有CONCURRENCY_REQUEST设置。你是说CONCURRENT_REQUESTS吗？

DOWNLOAD_DELAY = 0.33现在每分钟速度为180/min(有时为200)

如果没有将RANDOMIZE_DOWNLOAD_DELAY指定为False (默认值True)。下载延迟将是一个随机数之间的0.5倍至1.5倍的DOWNLOAD_DELAY设置。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56825022

复制

相似问题

问如何在使用scrapy解析时尽量减少服务器负载?/如何忽略<body>并仅解析来自<head>的信息EN