我需要处理大量( to级)数据(主要是图像)。我在考虑使用Hadoop YARN和HDFS来处理这些数据。其思想是将所有数据摄取到HDFS中,然后提交Hadoop作业来处理数据。YARN将在数据附近部署处理应用程序,并对其进行处理。如果我的处理应用程序是一个"jar“文件,这是可以接受的。如果我的图像处理应用程序是一个docker图像,是否可以向YARN提交一个作业,以便提交的应用程序是一个docker图像(而不是jar文件)?YARN必须在数据节点中部署应用程序(docker image)才能开始处理。
我检查了Docker Container Executor,但它在Docker容器中启动了纱线容器,并且应用程序(作业)仍然是一个jar文件,如上面的链接所示。
Google Kubernetes似乎适合我的需求(在集群中部署和管理docker镜像),但它不提供“HDFS式”存储(因此“将应用程序移动到数据而不是数据到应用程序”并不适合)。
请让我知道是否有任何集群管理器框架可以在集群中部署标准应用程序包(如jar、rpm、docker容器)来访问共享/分布式数据存储。
提前谢谢。
发布于 2015-08-26 02:53:37
YARN中当前的docker executor不是很好,因为,afaik,你需要替换整个executor,至少在引入它的时候它是一个集群范围的设置。
HW正在做一些关于docker http://hortonworks.com/blog/docker-kubernetes-apache-hadoop-yarn/的事情。你没有提到那个博客,所以我把它贴在这里。
https://stackoverflow.com/questions/32207974
复制相似问题