首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Hadoop生态系统部署步骤

Hadoop生态系统部署步骤
EN

Stack Overflow用户
提问于 2012-05-11 15:13:22
回答 3查看 647关注 0票数 1

我正在尝试将Apache Hadoop堆栈中的所有项目设置在一个集群中。设置apache hadoop生态系统框架的顺序是什么。例如: Hadoop,HBase,...如果您使用一组特定的步骤进行了测试,那么您能告诉我们在部署过程中可能会遇到哪些问题吗?主要的部署框架(Hadoop,HBase,Pig,Hive,HCatalog,Mahout,Giraph,ZooKeeper,Oozie,avro,sqoop,mrunit,crunch,如果我遗漏了什么,请添加)

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2012-05-11 16:04:36

因为不是所有列出的产品都是依赖的,所以有不同的顺序。

简而言之:

  1. Hadoop (HDFS、MapReduce)
  2. 猪、蜂窝、sqoop、Oozie
  3. Zookeeper (HBase需要)
  4. HBase

<代码>G29

我不是100%确定Mahout,MRUnit依赖,但我认为Hadoop只有在需要的情况下才会使用。

Avro并不直接依赖于hadoop -它是序列化库。

票数 1
EN

Stack Overflow用户

发布于 2012-05-12 01:24:41

我要说的是,部署是基于主要需求完成的,根据需求,您将选择需要哪些其他组件。我认为Hadoop的设置如下: 1. Hadoop核心(Hadoop通用+ HDFS + MapReduce ->一个大组件) 2. Hadoop组件(取决于选择)

例如,您只设置了1)您仍然可以在将数据复制到HDFS的同时运行MapReduce作业。我希望你明白我的意思。

现在,例如,您可能想要使用Hive和Pig进行数据分析工作,为此,您可以在上面设置Hive和Pig。

同时,您决定将此Hadoop群集与SQL Server/SQL Azure连接,以便可以将数据从SQL Server/SQL Azure导入HDFS。为此,您可以设置HiveODBC和Sqoop,这将为您提供在HDFS和SQL Server/Azure之间导入/导出数据的功能。HiveODBC和Sqoop为您提供了将本地Excel和Power Pivot直接连接到HDFS并从那里获取配置子表的功能。

如果你想建立一个位于HDFS之上的非SQL数据库,你当然可以选择HBASE,它将位于HDFS之上,并且你可以在上面运行MapReduce作业。

等等,根据您的需求,您可以创建一个所需内容的列表,并在集群中进行设置。没有硬性规定需要什么,只要你有基础Hadoop核心(见上),rest可以在任何核心设置之上完成。

票数 1
EN

Stack Overflow用户

发布于 2012-05-14 17:11:14

您可能会感兴趣的两个有趣的开源项目,它们可能会为您提供指导和想法:

Bigtop

  • Apache Whirr - http://whirr.apache.org/

  • Apache Bigtop- http://incubator.apache.org/bigtop/

看看他们用什么来部署你提到的项目,然后问问自己:“你真的需要自己/以不同的方式来做吗?”;-)

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10547050

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档