我想在抓取完成后收集和解析统计数据。我知道它会转储统计数据,但理想情况下,我希望有一个方法/钩子,该方法在抓取完成时运行,然后可以收集统计数据(因为我将使用它们来决定是否需要自动进行另一次抓取)。
请不要建议使用某种外部脚本,我希望所有这些都包含在一个项目中。
发布于 2019-07-30 20:25:04
尝试使用以下命令保存爬行器的进度:nohup scrapy crawl spider > spider_progress &
只能看到包含spider:cat spider_progress | tail统计信息的文本文件的尾部
发布于 2020-10-05 19:33:41
尝试在您的自定义pipeline中的close_spider方法中收集统计信息,该方法在爬网过程完成后运行。
class SecuritiesPipeline(object):
def close_spider(self, spider):
print(spider.crawler.stats.get_stats())https://stackoverflow.com/questions/57270706
复制相似问题