首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在使用scrapy解析时尽量减少服务器负载?/如何忽略<body>并仅解析来自<head>的信息

如何在使用scrapy解析时尽量减少服务器负载?/如何忽略<body>并仅解析来自<head>的信息
EN

Stack Overflow用户
提问于 2019-06-30 12:58:54
回答 1查看 55关注 0票数 0

我收集统计数据,我需要的所有信息都在站点的<head> (脚本标记)中。

它有大量的<body>(大约每页5-10 kb ),所以我不能在服务器负载较少的情况下解析它吗?

如果您推荐替代优化以减少服务器负载,我将非常高兴。

settings.py

CONCURRENT_REQUESTS = 32 DOWNLOAD_DELAY = 0.33现在速度为180/min(有时为200)

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-06-30 20:41:50

刮伤只对整个反应体起作用。这种行为编码在刮伤的核心。

CONCURRENCY_REQUEST = 32

Scrapy没有CONCURRENCY_REQUEST设置。你是说CONCURRENT_REQUESTS吗?

DOWNLOAD_DELAY = 0.33现在每分钟速度为180/min(有时为200)

如果没有将RANDOMIZE_DOWNLOAD_DELAY指定为False (默认值True)。下载延迟将是一个随机数之间的0.5倍至1.5倍的DOWNLOAD_DELAY设置。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56825022

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档