看起来没有合法的方式来暂停/继续使用Scrapyd进行爬行,就像Scrapy本身一样(抓取爬行器-s JOBDIR=jobdir/ spider -1)。我找到的唯一解决方案是:
https://groups.google.com/forum/#!msg/scrapyusers/2VjEBEbOo7s/MSH4GJc2B0sJ
但是我还不明白这个想法。
那么,是否可以使用Scrapyd暂停/继续作业?
耽误您时间,实在对不起
发布于 2017-09-26 14:08:02
想法如下:
当您从cmd运行爬行器时,您可以粘贴额外的参数,例如:scrapy crawl myspider -s JOBDIR=crawls/somespider-1
在endpoint schedule.json中使用Scrapyd时,还可以粘贴一些设置。如果您使用的是scrapyd-client,则如下所示:
s = {'JOBDIR': 'crawls/somespider-1'}
job = api.schedule(project_name, spider_name, settings=s)在此之后,您可以取消作业。下次,当您将运行相同的作业时- scrapyd恢复以前的工作
https://stackoverflow.com/questions/46418709
复制相似问题