我们有一些从互联网上收集数据的爬虫。对于我们的应用程序来说,EC2 spot是一个非常便宜的解决方案。
在我们的例子中,我们可以通过以下步骤来设置爬虫:
但是当爬虫需要更新时,我们需要重复步骤3。它会影响其他设置,如自动缩放中的“ami-id”或其他spot实例请求脚本。
“ami”中的应用程序管理是一个部署问题,因此我们需要建议使它尽可能简单。现在,还有另一种方法来管理它。我们使用源代码管理工具,部署步骤如下:
新方法防止了ami-id的更改,但每次都必须签出源代码。最后,获取源需要更多的时间(源每天都在增长)。
您如何在ami上管理您的工件?我不确定从源头建筑是最好的选择。它只解决了一些部署问题,但在爬行器实例运行之后,没有解决更新的问题。
发布于 2012-07-09 07:23:19
好吧,如果你的爬虫不是每天每小时更新一次,那么我认为你应该同时使用你以前的想法和新的想法,如果当前的构建是最新的write some script然后是go normal爬行,那么从服务器将脚本写到检查,如果现在的构建是最新的然后是go normal爬行,如果您不经常修改爬虫,那么就可以有高效的性能。
实际上,在大多数情况下,您将减少重建,因为当您描述重建过程时,您必须执行这些步骤,而不是出于任何原因。
希望这对你有帮助
https://stackoverflow.com/questions/11390235
复制相似问题