我收集统计数据,我需要的所有信息都在站点的<head> (脚本标记)中。
它有大量的<body>(大约每页5-10 kb ),所以我不能在服务器负载较少的情况下解析它吗?
如果您推荐替代优化以减少服务器负载,我将非常高兴。
settings.py
CONCURRENT_REQUESTS = 32 DOWNLOAD_DELAY = 0.33现在速度为180/min(有时为200)
发布于 2019-06-30 20:41:50
刮伤只对整个反应体起作用。这种行为编码在刮伤的核心。
CONCURRENCY_REQUEST = 32
Scrapy没有CONCURRENCY_REQUEST设置。你是说CONCURRENT_REQUESTS吗?
DOWNLOAD_DELAY = 0.33现在每分钟速度为180/min(有时为200)
如果没有将RANDOMIZE_DOWNLOAD_DELAY指定为False (默认值True)。下载延迟将是一个随机数之间的0.5倍至1.5倍的DOWNLOAD_DELAY设置。
https://stackoverflow.com/questions/56825022
复制相似问题