有人能告诉我Hadoop单机版和伪分布式版的数据流有什么区别吗?事实上,我正在尝试运行一个由John Norstad提出的矩阵乘法的例子。它在hadoop独立模式下运行良好,但在伪分布式模式下无法正常工作。我无法解决这个问题,所以请告诉我hadoop单机模式和伪分布式模式之间的原理差异,这对修复所述的problem.Thanks有帮助
Reagrds
WL
发布于 2012-01-12 22:44:56
在独立模式下,所有东西(namenode、datanode、tasktracker、jobtracker)都在一台机器上的一个JVM中运行。在伪分布式模式中,所有东西都在各自的JVM中运行,但仍然在一台机器上运行。就客户端接口而言,应该没有任何区别,但如果在伪分布式模式中序列化要求更严格,我也不会感到惊讶。
我的理由是,在伪分布式模式中,所有内容都必须序列化才能在JVM之间传递数据。在独立模式下,没有严格要求所有内容都是可序列化的(因为所有内容都在一个JVM中,您可以共享内存),但我不记得代码是否是为了利用这一点而编写的,因为这不是Hadoop的正常用例。
编辑:假设您没有看到错误,我认为这听起来像是MapReduce作业的编码方式有问题。也许他依赖于类似于reducers之间的共享内存的东西?如果是这样的话,这将在独立模式下工作,但不能在伪分布式模式下工作(就这一点而言,或者是真正的分布式模式)。
https://stackoverflow.com/questions/8836690
复制相似问题