首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Hadoop生态系统是什么? Apache是如何融入的?

Hadoop生态系统是什么? Apache是如何融入的?
EN

Stack Overflow用户
提问于 2014-12-01 23:10:23
回答 1查看 429关注 0票数 0

我很难理解“Hadoop生态系统”在概念上到底是什么。我知道您有一些想要运行的数据处理任务,所以您可以使用MapReduce将作业分成更小的部分,但我不知道人们说'Hadoop生态系统‘是什么意思。我也不清楚Apache的好处是什么,为什么这被认为是革命性的?如果这都是内存中的计算,难道这不只是意味着您需要更高的RAM机器来运行火花作业吗?Spark与编写一些并行Python代码或类似的东西有什么不同。

EN

回答 1

Stack Overflow用户

发布于 2014-12-01 23:22:28

您的问题相当广泛-- Hadoop生态系统是一种广泛的技术,它们要么支持Hadoop MapReduce,使其更容易应用,要么与其交互以完成任务。

示例:

  • (HDFS)以可伸缩的冗余分布式方式存储由MapReduce作业处理的数据。
  • 阿帕奇猪提供了一种语言Pig拉丁语,用于表示被编译成MapReduce作业的数据流。
  • 阿帕奇蜂巢提供了一种类似SQL的语言,用于查询存储在HDFS中的大型数据集。

还有很多,很多其他的--比如https://hadoopecosystemtable.github.io/

火花并不都是内存中的;如果有足够的内存,它可以在内存中执行计算,并且在需要时可以将数据泄漏到磁盘。

它特别适用于迭代算法,因为来自上一次迭代的数据可以保留在内存中。与普通Hadoop相比,它提供了一个非常不同(更简洁)的编程接口。它可以提供一些性能优势,即使工作主要是在磁盘上完成,而不是在内存中完成。它支持流式传输和批处理作业。它可以交互地使用,不像Hadoop。

与Hadoop相比,Spark相对容易安装和使用,所以我建议您尝试更好地理解它--为了进行实验,它可以运行一个正常的文件系统,并且不需要安装HDFS。见文档

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27239081

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档