我是spark的新手,我们需要设置一个动态spark集群来运行多个作业。通过参考一些文章,我们可以使用EMR (Amazon)服务来实现这一点。有没有什么方法可以在本地完成相同的设置?一旦Spark集群可用于在不同服务器上的不同端口上运行的服务,如何为每个作业将迷雾指向新的spark集群。提前谢谢。
发布于 2020-03-16 17:04:31
可以,您可以使用Spark提供的Standalone集群,您可以在其中设置Spark集群(主节点和从节点)。还有一些docker容器可以用来实现这一点。看看here吧。
其他选择是在本地部署Hadoop生态系统,如MapR、Hortonworks、Cloudera。
https://stackoverflow.com/questions/60702105
复制相似问题