如果数据集适合内存,Spark的性能最好,如果数据集不合适,它将使用磁盘,因此它与hadoop一样快。让我们假设我正在处理Tera/Peta字节的数据。有一个小的星团。显然,没有办法把它放进记忆中。我的观察是,在大数据时代,大多数数据集都是以千兆字节(如果不是更多的话)。
那么内存处理引擎的好处是什么呢?
发布于 2015-05-09 16:34:30
我发现与Hadoop的MapReduce相比,Spark的优势不仅仅是in-memory computation engine,甚至是来自磁盘的输入。就我而言,至少有两项重大进展:
DAG execution engine与MapReduce的two phase executionThread level parallel execution在Process level parallel execution上再详细阐述一下:
https://stackoverflow.com/questions/30141068
复制相似问题