我目前正在使用cronjob每晚运行一个爬虫,它只能在晚上运行。但我发现有时数据量会很大,一夜之间不足以抓取所有东西。所以我必须在早上6:00结束这个过程如何使用cronjob终止爬虫进程?
发布于 2016-10-07 18:20:52
这取决于你用于抓取的是什么,但是使用持续运行的StormCrawler,你可以有一个cron作业通过调用'storm jar ...‘来启动抓取。命令和另一个用“暴风杀掉”来杀死它。使用Apache Nutch,您可以通过列出当前正在运行的hadoop作业并终止它来实现相同的功能。然而,让当前迭代完成,并在终止爬行之前解析和索引片段会更干净。同样,这取决于您使用的爬虫程序。
https://stackoverflow.com/questions/39908541
复制相似问题