关于在EC2/S3上部署数据处理应用程序的文章已经很多了,但我想知道,开发这类应用程序的典型工作流程是什么?
假设我有一个1TB的时间序列数据,我已经设法将其存储在S3上。我如何编写应用程序和进行交互式数据分析来构建机器学习模型,然后编写大型程序对其进行测试?换句话说,在这种情况下,如何建立一个开发环境?我是否要启动一个EC2实例,在该实例上开发软件并保存我的更改,然后在每次要执行某些工作时关闭该实例?
通常,我启动R或Pylab,从本地驱动器读取数据并进行分析。然后,我基于该分析创建应用程序,并将其放在该数据上。
在EC2上,我不确定我是否能做到这一点。人们是否将数据保存在本地以供分析,并且仅在有大型模拟作业要运行时才使用EC2?
我非常想知道其他人在做什么,特别是那些拥有基于EC2/S3的整个基础设施的初创公司。
发布于 2010-02-20 01:25:49
我们创建一个基线,custom AMI,其中包含我们知道的所有程序,这些程序在AMI上总是需要的。
我们开发(并不断更新)的软件存储在外部存储上(我们使用Maven存储库,但您可以使用任何适合您的环境的存储。
然后,我们启动我们的自定义AMI,其中包含我们需要的所有东西,从Maven部署最新版本的软件,我们就可以开始工作了。
因此,工作流程是:
设置
使用我们始终需要的东西创建自定义AMI
持续
开发软件在本地将二进制文件部署到外部存储(在我们的示例中为Maven存储库)根据需要启动多个自定义AMI实例将二进制文件从外部存储复制到每个实例上运行的每个实例
发布于 2010-02-28 09:43:41
I-slash-我们在做你想做的事情上有一些经验。Eric J.所说的基本上概括了这一点。但请允许我重申,
https://stackoverflow.com/questions/2298201
复制相似问题