我是安装单节点和多节点(1主和1从)集群。当我试图运行我的应用程序时,单节点和多节点都需要相同的时间。在我的应用程序中,我将数据从HDFS复制到本地文件系统,然后对其执行处理。这是因为我在本地存储了文件,并且集群中的其他节点无法访问这些文件吗?我提供了一个文件,它实际上被分成三个块,所以逻辑上应该在多节点上处理得更快。有什么想法吗?
谢谢!
发布于 2014-09-07 20:18:51
当我试图运行我的应用程序时,单节点和多节点都需要相同的时间。
好的,所用时间的不同将取决于所执行的操作类型和应用程序生成的负载量。例如,在单节点集群和多节点集群上复制很少MB的数据几乎要花费相同的时间。甚至,与多节点聚类相比,单节点聚类对于小数据集也能显示出较好的效果。Hadoop的实际力量在于利用多节点集群进行并行处理来处理海量的数据集。
在我的应用程序中,我将数据从HDFS复制到本地文件系统,然后对其执行处理。
我认为在本地文件系统上复制数据以便在多节点环境中进行处理没有任何意义。这样,您就限制了自己使用分布式计算的能力。
https://stackoverflow.com/questions/25714309
复制相似问题