我们正在寻找一种使用OpenShift (基于Docker)提供Hadoop生态系统集群的可行方法。我们希望使用Hadoop生态系统的服务来构建集群,如HDFS、Spark、Spark、Hive、HBase、ZooKeeper等。
我的团队一直在使用Hortonworks作为前提硬件,但现在将转向基于OpenShift的基础设施。Hortonworks云中断似乎不适合基于OpenShift的基础设施。我发现这文章描述了纱线与OpenShift的集成,但似乎没有更多的信息可供使用。
在OpenShift上提供Hadoop生态系统集群的最简单方法是什么?手动添加所有服务感觉容易出错,很难管理。我偶然发现了这些独立服务的Docker映像,但它不能与使用Hortonworks HDP这样的平台进行自动配置相媲美。如有任何指导,将不胜感激。
发布于 2018-04-07 02:53:31
如果在Openshift中安装Openstack,则撒哈拉允许提供Openstack Hadoop集群
或者,用于提供基于容器的云部署的云是Hortonwork的工具
两者都提供Ambari,允许您使用与HDP相同的集群管理接口。
FWIW,我个人认为没有理由把Hadoop放在容器中。你的数据被锁定在特定的磁盘上。在一个主机上运行几个较小的ResourceManagers没有任何改进。另外,对于纱线来说,你会在集装箱里装集装箱。对于namenode,必须有一个复制的Fsimage + Editlog,因为容器可以放在任何系统上
https://stackoverflow.com/questions/49691196
复制相似问题