问Hadoop生态系统是什么? Apache是如何融入的？
EN

Stack Overflow用户

提问于 2014-12-01 23:10:23

回答 1查看 429关注 0票数 0

我很难理解“Hadoop生态系统”在概念上到底是什么。我知道您有一些想要运行的数据处理任务，所以您可以使用MapReduce将作业分成更小的部分，但我不知道人们说'Hadoop生态系统‘是什么意思。我也不清楚Apache的好处是什么，为什么这被认为是革命性的？如果这都是内存中的计算，难道这不只是意味着您需要更高的RAM机器来运行火花作业吗？Spark与编写一些并行Python代码或类似的东西有什么不同。

hadoop

回答 1

Stack Overflow用户

发布于 2014-12-01 23:22:28

您的问题相当广泛-- Hadoop生态系统是一种广泛的技术，它们要么支持Hadoop MapReduce，使其更容易应用，要么与其交互以完成任务。

示例：

(HDFS)以可伸缩的冗余分布式方式存储由MapReduce作业处理的数据。
阿帕奇猪提供了一种语言Pig拉丁语，用于表示被编译成MapReduce作业的数据流。
阿帕奇蜂巢提供了一种类似SQL的语言，用于查询存储在HDFS中的大型数据集。

还有很多，很多其他的--比如https://hadoopecosystemtable.github.io/

火花并不都是内存中的；如果有足够的内存，它可以在内存中执行计算，并且在需要时可以将数据泄漏到磁盘。

它特别适用于迭代算法，因为来自上一次迭代的数据可以保留在内存中。与普通Hadoop相比，它提供了一个非常不同(更简洁)的编程接口。它可以提供一些性能优势，即使工作主要是在磁盘上完成，而不是在内存中完成。它支持流式传输和批处理作业。它可以交互地使用，不像Hadoop。

与Hadoop相比，Spark相对容易安装和使用，所以我建议您尝试更好地理解它--为了进行实验，它可以运行一个正常的文件系统，并且不需要安装HDFS。见文档。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/27239081

复制

相似问题

问Hadoop生态系统是什么? Apache是如何融入的？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Hadoop生态系统是什么? Apache是如何融入的？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Hadoop生态系统是什么? Apache是如何融入的？
EN