有没有可能通过与链接相关的日期来抓取链接?我正在尝试实现一个每日运行的爬行器,它将文章信息保存到数据库中,但我不想重新抓取我以前已经抓取过的文章--即昨天的文章。我遇到了this,所以post问了同样的问题,scrapy-deltafetch plugin被建议了。
但是,这依赖于根据先前保存在数据库中的request fingerprints检查新请求。我假设,如果每天的抓取持续一段时间,那么数据库将需要大量的内存开销来存储已经抓取的请求指纹。
因此,给出一个像cnn.com这样的网站上的文章列表,我想要抓取今天发布的所有文章6/14/17,但是一旦抓取器命中列出的日期为6/13/17的后续文章,我想关闭爬行器并停止抓取。这种方法在scrapy中可行吗?给定一页文章,CrawlSpider会从页面顶部开始并按顺序抓取文章吗?
刚开始接触Scrapy,所以不确定要尝试什么。任何帮助都将不胜感激,谢谢!
https://stackoverflow.com/questions/44554790
复制相似问题