我已经创建了一个刮板,它从网站下载所有文件,并使用项目管道将下载链接保存在JSON文件中。如果在JSON文件中找到刮刀的链接,如何防止它再次下载相同的文件。
发布于 2016-05-23 01:58:31
问得好!事实上,您想要做的事情非常复杂,要以通用的方式进行编程(您必须编写自己的中间件或自定义RFPDupeFilter 这里 )。但你很幸运。实现您想要的目标的另一种通用方法是暂停和恢复爬行,它已经实现和测试了。
https://stackoverflow.com/questions/37377149
复制相似问题