我知道以前有人问过这个问题,但这些答案似乎围绕着Hadoop。对于火花,你并不需要所有额外的Hadoop巡航。有了spark-ec2脚本(可通过GitHub for 2.0获得),您的环境就准备好了。是否有任何令人信服的用例(除了一个远超的boto3 sdk接口)用于在EC2上运行电子病历?
发布于 2016-11-03 23:48:35
这个问题归结为管理服务的价值,IMHO。
在本地模式下以独立方式运行星火只需要获得最新的星火、解压缩它、cd到它的bin路径,然后运行spark-submit等等。
然而,创建一个运行在集群模式下的多节点集群需要您实际进行真正的网络连接、配置、调优等等。这意味着您必须处理IAM角色、安全组,并且在您的VPC中有一些子网考虑事项。
当您使用EMR时,您可以在其中1点安装许多流行应用程序(包括星火),并且所有的安全组都已经为节点之间的网络通信进行了正确的配置,您已经设置并指向了S3,您得到了简单的SSH指令,您已经安装了一个用于隧道和查看各种UI的设备,在IO级别、节点级别和作业提交级别都有可视化的使用指标,您还可以创建和运行Steps --这些作业可以在驱动器节点的命令行中运行,也可以作为利用整个集群的Spark应用程序运行。然后,在此基础上,您可以导出整个集群、包含的步骤,并通过DataPipeline将CLI脚本复制到定期作业中,并在60秒内真正地创建一个ETL管道。
如果您自己在EC2中构建它,您将不会得到任何这样的结果。我知道我会选哪一个..。电子病历。但只有我一个人。
https://stackoverflow.com/questions/40410975
复制相似问题