我正在尝试将Apache Hadoop堆栈中的所有项目设置在一个集群中。设置apache hadoop生态系统框架的顺序是什么。例如: Hadoop,HBase,...如果您使用一组特定的步骤进行了测试,那么您能告诉我们在部署过程中可能会遇到哪些问题吗?主要的部署框架(Hadoop,HBase,Pig,Hive,HCatalog,Mahout,Giraph,ZooKeeper,Oozie,avro,sqoop,mrunit,crunch,如果我遗漏了什么,请添加)
发布于 2012-05-11 16:04:36
因为不是所有列出的产品都是依赖的,所以有不同的顺序。
简而言之:
<代码>G29
我不是100%确定Mahout,MRUnit依赖,但我认为Hadoop只有在需要的情况下才会使用。
Avro并不直接依赖于hadoop -它是序列化库。
发布于 2012-05-12 01:24:41
我要说的是,部署是基于主要需求完成的,根据需求,您将选择需要哪些其他组件。我认为Hadoop的设置如下: 1. Hadoop核心(Hadoop通用+ HDFS + MapReduce ->一个大组件) 2. Hadoop组件(取决于选择)
例如,您只设置了1)您仍然可以在将数据复制到HDFS的同时运行MapReduce作业。我希望你明白我的意思。
现在,例如,您可能想要使用Hive和Pig进行数据分析工作,为此,您可以在上面设置Hive和Pig。
同时,您决定将此Hadoop群集与SQL Server/SQL Azure连接,以便可以将数据从SQL Server/SQL Azure导入HDFS。为此,您可以设置HiveODBC和Sqoop,这将为您提供在HDFS和SQL Server/Azure之间导入/导出数据的功能。HiveODBC和Sqoop为您提供了将本地Excel和Power Pivot直接连接到HDFS并从那里获取配置子表的功能。
如果你想建立一个位于HDFS之上的非SQL数据库,你当然可以选择HBASE,它将位于HDFS之上,并且你可以在上面运行MapReduce作业。
等等,根据您的需求,您可以创建一个所需内容的列表,并在集群中进行设置。没有硬性规定需要什么,只要你有基础Hadoop核心(见上),rest可以在任何核心设置之上完成。
我
发布于 2012-05-14 17:11:14
您可能会感兴趣的两个有趣的开源项目,它们可能会为您提供指导和想法:
Bigtop
看看他们用什么来部署你提到的项目,然后问问自己:“你真的需要自己/以不同的方式来做吗?”;-)
https://stackoverflow.com/questions/10547050
复制相似问题