问抓取-按日期抓取链接
EN

Stack Overflow用户

提问于 2017-06-15 05:10:01

回答 0查看 1.3K关注 0票数 1

有没有可能通过与链接相关的日期来抓取链接？我正在尝试实现一个每日运行的爬行器，它将文章信息保存到数据库中，但我不想重新抓取我以前已经抓取过的文章--即昨天的文章。我遇到了this，所以post问了同样的问题，scrapy-deltafetch plugin被建议了。

但是，这依赖于根据先前保存在数据库中的request fingerprints检查新请求。我假设，如果每天的抓取持续一段时间，那么数据库将需要大量的内存开销来存储已经抓取的请求指纹。

因此，给出一个像cnn.com这样的网站上的文章列表，我想要抓取今天发布的所有文章6/14/17，但是一旦抓取器命中列出的日期为6/13/17的后续文章，我想关闭爬行器并停止抓取。这种方法在scrapy中可行吗？给定一页文章，CrawlSpider会从页面顶部开始并按顺序抓取文章吗？

刚开始接触Scrapy，所以不确定要尝试什么。任何帮助都将不胜感激，谢谢！

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/44554790

复制

相似问题

问抓取-按日期抓取链接EN