我有一个爬虫,爬行几个不同的领域为新的帖子/内容。总内容数为十万页,每天都有很多新的内容添加。因此,为了能够通过所有这些内容,我需要我的爬虫爬行24/7。
目前,我将爬虫脚本托管在与爬虫添加内容的站点相同的服务器上,而且我只能在夜间运行cron作业来运行脚本,因为当我这样做时,网站基本上停止工作,因为脚本的加载。换句话说,一个非常糟糕的解决方案。
所以基本上,我想知道对于这种解决方案,我的最佳选择是什么?
发布于 2014-04-16 05:36:22
我决定选择作为我的爬虫的宿主,在那里,它们都有用于队列的SQS,但也有自动可伸缩的实例。它也有S3,我可以在那里存储我所有的图像。
我还决定将我的整个爬虫重写为Python,而不是PHP,以便更容易地利用诸如队列之类的功能,并使应用程序100%运行,而不是使用cronjobs。
所以我做了什么,这意味着什么
结果很好。当我每15分钟在cron作业上运行一次per时,我可以每小时爬行大约600个urls。现在,我可以毫无问题地每小时爬行10,000多个urls,更多地取决于我如何设置自动缩放。
https://stackoverflow.com/questions/22221414
复制相似问题