我是Hadoop的新手。从概念上讲,这很容易理解,然而,真正的挑战之一是如何对要在map-reduce体系结构中解决的问题进行建模。假设我的数据包含两个部分(都在oracle中):1.不太变化的静态数据2.每天收集的新数据。
而目前的数据处理基本上是读取新鲜的数据,找到并使用相应的静态数据(或元数据),并对其应用某种算法,然后将其转储回Oracle。
我如何对这样的应用程序范例进行建模?是否将静态数据保存/存储为分布式缓存的一部分?如果这些数据非常大呢?
基本上,我正在寻找更多类似以下的示例:http://stevekrenzel.com/finding-friends-with-mapreduce
谢谢,
发布于 2013-01-26 20:18:20
基本上,要求是在两个数据集上进行连接。MapReduce编程需要一种与普通编程不同的思维方式。下面是连接的一些参考,以及MapReduce之上的一些其他模式
Hadoop - The Definitive Guide中的
回到连接,它可以根据数据量和数据的方式有多种方式。上面的参考文献中有更多关于相同的内容。
发布于 2013-03-11 13:59:32
我们在这里收集现实生活中的用例:http://hadoopilluminated.com/hadoop_book/Hadoop_Use_Cases.html
我们已经很好地覆盖了多个域,并将继续增加。
(免责声明:我是这本免费hadoop书的合著者)
发布于 2013-01-26 04:34:42
我将查看以下article about Map/Reduce patterns,它将使您对常见算法及其在Map/Reduce世界中的转换有一个很好的了解。
更广泛地说,我不认为有一个神奇的公式可以将一个问题转换为一组Map/Reduce,你必须问自己不同数据集的问题,查看现有的例子是一件好事,你绝对应该尝试在一个小玩具问题上实现一些东西。
此外,如果您在将问题抽象为一组Map/Reduce作业时遇到问题,您也可以使用例如Hive,它的工作方式就像一个经过一些调整的关系数据库,可以为您生成Map/Reduce作业,而不必太担心会发生什么。
https://stackoverflow.com/questions/14529834
复制相似问题