文章/答案/技术大牛

发布

社区首页 >问答首页 >爬网后统计信息收集

问爬网后统计信息收集
EN

Stack Overflow用户

提问于 2019-07-30 19:34:09

回答 2查看 37关注 0票数 0

我想在抓取完成后收集和解析统计数据。我知道它会转储统计数据，但理想情况下，我希望有一个方法/钩子，该方法在抓取完成时运行，然后可以收集统计数据(因为我将使用它们来决定是否需要自动进行另一次抓取)。

请不要建议使用某种外部脚本，我希望所有这些都包含在一个项目中。

scrapy

web-crawler

python

回答 2

Stack Overflow用户

发布于 2019-07-30 20:25:04

尝试使用以下命令保存爬行器的进度：nohup scrapy crawl spider > spider_progress &

只能看到包含spider：cat spider_progress | tail统计信息的文本文件的尾部

票数 0

Stack Overflow用户

发布于 2020-10-05 19:33:41

尝试在您的自定义pipeline中的close_spider方法中收集统计信息，该方法在爬网过程完成后运行。

class SecuritiesPipeline(object):

    def close_spider(self, spider):
        print(spider.crawler.stats.get_stats())

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57270706

复制

相似问题

问爬网后统计信息收集
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问爬网后统计信息收集EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问爬网后统计信息收集
EN