首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >抓取-按日期抓取链接

抓取-按日期抓取链接
EN

Stack Overflow用户
提问于 2017-06-15 05:10:01
回答 0查看 1.3K关注 0票数 1

有没有可能通过与链接相关的日期来抓取链接?我正在尝试实现一个每日运行的爬行器,它将文章信息保存到数据库中,但我不想重新抓取我以前已经抓取过的文章--即昨天的文章。我遇到了this,所以post问了同样的问题,scrapy-deltafetch plugin被建议了。

但是,这依赖于根据先前保存在数据库中的request fingerprints检查新请求。我假设,如果每天的抓取持续一段时间,那么数据库将需要大量的内存开销来存储已经抓取的请求指纹。

因此,给出一个像cnn.com这样的网站上的文章列表,我想要抓取今天发布的所有文章6/14/17,但是一旦抓取器命中列出的日期为6/13/17的后续文章,我想关闭爬行器并停止抓取。这种方法在scrapy中可行吗?给定一页文章,CrawlSpider会从页面顶部开始并按顺序抓取文章吗?

刚开始接触Scrapy,所以不确定要尝试什么。任何帮助都将不胜感激,谢谢!

EN

回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44554790

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档