我很难理解“Hadoop生态系统”在概念上到底是什么。我知道您有一些想要运行的数据处理任务,所以您可以使用MapReduce将作业分成更小的部分,但我不知道人们说'Hadoop生态系统‘是什么意思。我也不清楚Apache的好处是什么,为什么这被认为是革命性的?如果这都是内存中的计算,难道这不只是意味着您需要更高的RAM机器来运行火花作业吗?Spark与编写一些并行Python代码或类似的东西有什么不同。
发布于 2014-12-01 23:22:28
您的问题相当广泛-- Hadoop生态系统是一种广泛的技术,它们要么支持Hadoop MapReduce,使其更容易应用,要么与其交互以完成任务。
示例:
还有很多,很多其他的--比如https://hadoopecosystemtable.github.io/
火花并不都是内存中的;如果有足够的内存,它可以在内存中执行计算,并且在需要时可以将数据泄漏到磁盘。
它特别适用于迭代算法,因为来自上一次迭代的数据可以保留在内存中。与普通Hadoop相比,它提供了一个非常不同(更简洁)的编程接口。它可以提供一些性能优势,即使工作主要是在磁盘上完成,而不是在内存中完成。它支持流式传输和批处理作业。它可以交互地使用,不像Hadoop。
与Hadoop相比,Spark相对容易安装和使用,所以我建议您尝试更好地理解它--为了进行实验,它可以运行一个正常的文件系统,并且不需要安装HDFS。见文档。
https://stackoverflow.com/questions/27239081
复制相似问题