文章/答案/技术大牛

发布

问Hadoop生态系统部署步骤
EN

Stack Overflow用户

提问于 2012-05-11 15:13:22

回答 3查看 647关注 0票数 1

我正在尝试将Apache Hadoop堆栈中的所有项目设置在一个集群中。设置apache hadoop生态系统框架的顺序是什么。例如: Hadoop，HBase，...如果您使用一组特定的步骤进行了测试，那么您能告诉我们在部署过程中可能会遇到哪些问题吗？主要的部署框架(Hadoop，HBase，Pig，Hive，HCatalog，Mahout，Giraph，ZooKeeper，Oozie，avro，sqoop，mrunit，crunch，如果我遗漏了什么，请添加)

hadoop

mapreduce

apache

deployment

configuration

回答 3

Stack Overflow用户

回答已采纳

发布于 2012-05-11 16:04:36

因为不是所有列出的产品都是依赖的，所以有不同的顺序。

简而言之：

Hadoop (HDFS、MapReduce)
猪、蜂窝、sqoop、Oozie
Zookeeper (HBase需要)
HBase

<代码>G29

我不是100%确定Mahout，MRUnit依赖，但我认为Hadoop只有在需要的情况下才会使用。

Avro并不直接依赖于hadoop -它是序列化库。

票数 1

Stack Overflow用户

发布于 2012-05-12 01:24:41

我要说的是，部署是基于主要需求完成的，根据需求，您将选择需要哪些其他组件。我认为Hadoop的设置如下: 1. Hadoop核心(Hadoop通用+ HDFS + MapReduce ->一个大组件) 2. Hadoop组件(取决于选择)

例如，您只设置了1)您仍然可以在将数据复制到HDFS的同时运行MapReduce作业。我希望你明白我的意思。

现在，例如，您可能想要使用Hive和Pig进行数据分析工作，为此，您可以在上面设置Hive和Pig。

同时，您决定将此Hadoop群集与SQL Server/SQL Azure连接，以便可以将数据从SQL Server/SQL Azure导入HDFS。为此，您可以设置HiveODBC和Sqoop，这将为您提供在HDFS和SQL Server/Azure之间导入/导出数据的功能。HiveODBC和Sqoop为您提供了将本地Excel和Power Pivot直接连接到HDFS并从那里获取配置子表的功能。

如果你想建立一个位于HDFS之上的非SQL数据库，你当然可以选择HBASE，它将位于HDFS之上，并且你可以在上面运行MapReduce作业。

等等，根据您的需求，您可以创建一个所需内容的列表，并在集群中进行设置。没有硬性规定需要什么，只要你有基础Hadoop核心(见上)，rest可以在任何核心设置之上完成。

我

票数 1

Stack Overflow用户

发布于 2012-05-14 17:11:14

您可能会感兴趣的两个有趣的开源项目，它们可能会为您提供指导和想法：

Bigtop

Apache Whirr - http://whirr.apache.org/

Apache Bigtop- http://incubator.apache.org/bigtop/

看看他们用什么来部署你提到的项目，然后问问自己：“你真的需要自己/以不同的方式来做吗？”;-)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10547050

复制

相似问题

问Hadoop生态系统部署步骤
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Hadoop生态系统部署步骤EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Hadoop生态系统部署步骤
EN