我知道我可以使用命令
scrapy crawl somespider -s JOBDIR=爬行/somespider-1
为了记录crawler的运行信息以确保在crawler暂停后可以重新启动crawler,crawler将在当前暂停的位置继续搜索。
但是,如果crawler在服务器的后台静默运行,则无法执行ctrl+c
据我所知,ps -df会找到爬虫程序的进程,并以一种迫使爬虫程序关闭的方式杀死-s 9 id。但这将不可避免地中断爬虫的一些收尾工作。JOBDIR=crawls/somespider-1将在下次启动时丢失。我能做些什么来安全地停止爬虫?
发布于 2019-08-21 10:51:00
根据kill提供的文档,您可以使用kill -2 pid安全地停止等同于ctrl+c的爬行器
https://stackoverflow.com/questions/57522739
复制相似问题